但是视频里传出的每一句话文字转WAV音频