主持人用语言介绍着场景文字转WAV音频