不能用人格化的角度去度量文字转WAV音频