基础数据应该是按视讯的精神力和擂台课的水平来确定文字转WAV音频