所以他们是提前到的文字转WAV音频