也许我们可以有一个折衷的方案文字转WAV音频