提供了固定的高度和稳定性文字转WAV音频