这些我都放在一边在单独训练文字转WAV音频