主要是调控和引导文字转WAV音频