因为过度捕捉文字转WAV音频