只能模拟很模糊简单的情绪文字转WAV音频