只不过这样每隔数十丈就得重新定位文字转WAV音频