简介
爬山虎采集器是一款通用的网页采集软件,它能够采集互联网上的大部分网站数据,包括网页表格数据、文档、图片及其他各种形式文件,自动批量下载到本地电脑。
可以将采集的数据导出为各种格式文件、数据库、网站API接口。 可以定时运行,自动发布,增量更新采集,完全实现自动化运行,无需要人工干涉。极大提高人们从互联网上获取数据的效率。
软件界面
下面对爬山虎采集器软件的主要界面功能进行介绍。
打开软件,在主界面有3个区域:
- 任务列表,包含所有的分组和已经创建的任务,在这里对任务进行管理
- 工具栏,一些常用的任务操作按钮、选项、登陆。
- 起始页,有简易采集入口和自定义采集入口,以及文档、客服链接
任务列表右键菜单
可以通过右键菜单对任务进行一系列操作,比如开始采集、编辑、删除、复制,导出任务规则,导出、查看已采集数据。
运行状态窗口
这里正在运行、已完成的任务运行状态,包含任务名称、状态、下次运行时间、最后运行时间、最后采集数据量。
任务编辑器 - 自定义模式
任务编辑器用来新建、编辑任务规则,主要包含3部分:
- 第一步、输入起始网址
- 第二步、抓取数据的详细配置
- 第三步、设置(包含浏览器及任务的参数设置)
简易采集
爬山虎采集器内置了上百种简易采集规则,用户只需要通过一些简单参数(比如关键词、网址)就可以开始采集。
采集市场,官方维护的采集规则,分为几大类型,在新建自定义任务之前,可以先在这里搜索下是否有现成的规则。
简易规则编辑器,点击使用之后出现,可以设置一些简单的数据,比如关键词、网址,完成之后,可以直接点击开始采集。
这里只对主要功能界面做下介绍,更多详细请参考其他文档。