才把很多分开录制的镜头混到一起文字转WAV音频