那么之前推理的基本前提文字转WAV音频