另一方面则是他确实受过相关的训练文字转WAV音频