毕竟他们是来接受训练的文字转WAV音频