但他可以模拟各种景象文字转WAV音频