其实这种训练是双向的文字转WAV音频