他们应该是定位跟踪我们文字转WAV音频