我们可以做出一个简单的模型文字转WAV音频