他们的目标应该就是我们文字转WAV音频