他们会进行录像文字转WAV音频