我们主张通过对话文字转WAV音频