他们需要的更多是稳定文字转WAV音频