他们只是拿走一部分文字转WAV音频