所有的训练量全部都加了双倍文字转WAV音频