貌似都是系统根据NPC在游戏场景中所占功能性强弱而定文字转WAV音频