他们也不能确定他们看到的是不是真人文字转WAV音频