这和我们之前的设想是吻合的文字转WAV音频