他们提出一个魂值的概念文字转WAV音频