而不需要像现在这样只能大致确定一个位置文字转WAV音频