所以他采取了文字转WAV音频