但他的目地只是定位文字转WAV音频