事实上他们并不全都是人文字转WAV音频