实际上我们是在争取时间文字转WAV音频