我已经计算出了正确的推断文字转WAV音频