唯一清楚的就是对方所在的位置文字转WAV音频