所以我们这里不存在百分之百的人文字转WAV音频