还是按照记忆中各个种族的位置文字转WAV音频