所以他对薛美凝的说法还算表示理解文字转WAV音频