我们就可以捕捉到他的位置文字转WAV音频