而是建立出梯级世界文字转WAV音频