但是他提出来了一个条件文字转WAV音频