并且最终稳定下来文字转WAV音频