实则是由三个部分组成的文字转WAV音频