他们用的是土方法瞄准文字转WAV音频