在理解中严格执行文字转WAV音频