因为他们是从差劲的背景环境上位来的文字转WAV音频