他们很难度量文字转WAV音频