也是因为受到的训练文字转WAV音频