似乎是表示理解文字转WAV音频