只能从呈现的事实上面做出单纯的判断文字转WAV音频