而是用了一点手段让他们完全听从自己的文字转WAV音频