他们在训练时被灌输的就是服从文字转WAV音频