而是依赖于实拍文字转WAV音频