原本还是一种很抽象的状态文字转WAV音频