又怎么可能会出现错误估计文字转WAV音频