这一点从训练的安排便可以看得出来文字转WAV音频