如果我们假设文字转WAV音频