就是一种潜在的平衡文字转WAV音频