只不过那时是训练的结果文字转WAV音频