他们是接受了文字转WAV音频