据说是直属于中央的人文字转WAV音频