所以他最终还是实话实说了文字转WAV音频