而且是通过第三屏幕拍摄的文字转WAV音频