而是通过了视频数据传回来的及时图像文字转WAV音频