因为我知道你是在根据我的声音分辨我的位置文字转WAV音频