他们当然重视文字转WAV音频