还是他们当场判断准确文字转WAV音频