其实他之前认为的结果也是这样的文字转WAV音频