似乎是要进行全方面的定位文字转WAV音频