他们的情况还算稳定文字转WAV音频