然后第二次第三次都是边训练边淘汰的那种文字转WAV音频