因为他们接受的训练就是这样文字转WAV音频