为的就是能够准确的抓住拍摄的时间段和具体的街道地点文字转WAV音频