纯净下载站唯一官网:www.huzk.cn

首页 > 软件下载 > 网络工具 > 站长工具

网络神采下载-网络神采(数据采集软件) v6.3.15免费版

软件大小:11.19M

软件语言:简体中文

软件授权:免费版

软件类别:站长工具

更新时间:2021-11-25 15:00:59

官方网站:

应用平台:/Win7/8/10

软件等级:

  • 软件介绍

《网络神采》是一款轻量级的采集软件,用于快速采集、下载网页数据。软件速度快、好用、免费。支持智能采集(不用配规则)、可视化采集(不用看源文件),支持二次开发、分布式部署。为用户的大数据分析、信息化平台,提供稳定、持续、准确的数据资源。

软件优势

1、采集强度

支持JS解析、POST分页、登录采集、跨层采集。对于疑难采集页面,有成熟的解决方案。

2、速度快

支持多任务同时运行,每个任务又可以设置多线程,确保运行效率。

3、规模化

支持任务多级分类、批量管理。支持云服务器分布式部署,管理员团队协合。

4、流程化

支持定时采集,任务定时自动启动。通过二次开发,实现流程化的信息采集、信息处理。

5、运行稳定

系统运行稳定,要求“0bug”。目标网页改版后,自动通知管理员。

6、准确性

定制好任务后,采集准确率可达100%,即一条不漏。

软件特点

A、通用:通过定制采集规则,能够采集任何通过浏览器看得到的东西。

B、灵活:支持网站登录采集、网站跨层采集、POST采集、脚本采集、动态页面采集等高级功能。

C、扩展性强:支持存储过程、插件等,您可以通过二次开发扩展功能。

D、高效:为了让您节省一分钟去做其它事情,软件做了精心设计。

E、速度快:速度最快、效率最高的采集软件。

F、稳定:系统资源占用少、有详细的运行日志、采集性能稳定,而且,软件要求“零BUG”。

G、人性化:我们始终注重细节,并及时为您提供全方位服务。

使用教程

网络神采:入门采集示例

新闻采集是最常用的,也是最容易理解的,我们就拿一个简单的新闻采集任务作为入门示例。该任务有两层:“新闻列表”和“新闻内容”。我们将新闻列表作为“起始地址”,然后通过“导航规则”从“新闻列表”提取“新闻内容”的网址,最后根据“采集规则”采集所需内容。

1、创建任务

在网络神采软件主窗口,单击菜单“任务”->“新建”,打开“任务编辑”对话框来创建一个任务。下面通过图文混合,一步步讨论如何填写设置:

第一步:任务概述

在“任务概述”中,我们只填写一个任务名称即可:郑州大学新闻信息。其它设置暂且不讨论,等您熟练以后再参考我们的帮助文档。

第二步:起始地址

起始地址就是我们要采集内容的入口地址,在这里是“新闻列表”:http://www3.zzu.edu.cn/msgs/vmsgisapi.dll/vmsglist?mtype=x&lan=202&tts=&tops=&pn={1,100}。其中,“pn”是分页变量名,这个可以通过在浏览时“新闻列表”时对其进行翻页并观察得出。如果“pn=1”就表示第1页,“pn=2”表示第2页,以此类推。我们为“pn”指定一个变量值:{1,100},就表示将要采集1到100页。这种分页变量格式是我们软件定义的,可以通过点击“插入”按钮插入预置分页变量。

第三步:导航规则

因为该任务有两层,所以需要建两条“导航规则”,分别命名为:“新闻列表”和“新闻内容”。我们需要从“新闻列表”提取“新闻内容”的网址,以实现导航。因此,设“新闻列表”为“中间层”,并填写“下一层网址模板”以提取网址。而“新闻内容”只需选中“最终页面”,然后保存即可。

那如何确定“新闻列表”的“下一层网址模板”呢?请看下图。

通过查看“新闻列表”的源文件,我们可以找出“新闻内容”的网址,即黄色部分所示。我们把网址中的变量部分替换成“*”(通配符),便是“下一层网址模板”,即:http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=* 。这样,我们在提取时就有了一个依据:只提取匹配模板的网址,而跳过其它网址。

“导航规则”最终设置如下:

第四步:采集规则

通过“导航规则”我们一路走到了“最终页面”,也就是“新闻内容”,接下来就需要根据“采集规则”采集所需内容了。如上图所示,一条“采集规则”对应一个数据库字段,也就是一种信息类型,如:标题、发布者、供稿人、内容等。“数据库字段”可以不填,默认为其规则名称。而“所属层次”为跨层采集功能,本示例用不到,保持默认即可。

下面就是最重要的:“信息前标志”和“信息后标志”,软件通过在源文件中查找“前后标志”来定位要采集的信息。那么如何取得信息的前后标志呢?请看下图。

如图所示,“红色部分”表示信息的前标志,而“黄色部分”为后标志,被夹在中间的“蓝色部分”就是我们需要采集的内容。依次为:“标题”、“发布者”、“供稿人”、“发布日期”、“阅读次数”、“内容”。

“采集规则”最终设置如下:

注意:

1、如果使用“前后标志”采集信息,必须与“网页源文件”中出现的顺序一致。

2、一条“采集规则”应用后,会将“采集内容”的尾部作为“当前位置”,然后从“当前位置”查找下一条“采集规则”的“信息前标志”。

3、如果选中了“全局规则”、“静态规则”,则再不受“当前位置”影响。

第五步:采集结果

如图所示,我们不在这里做任何设置,采集后直接将结果导出即可。

更新日志
2019-08-13 V6.3.15 可视化采集配置,放大、缩小范围时:

1、提取下一网址:默认为连续 * 号,按Ctrl键为单个 * 号

2、循环采集:按Shift键,支持连续 * 号

3、多个 * 号时,加亮显示

可视化采集配置,操作细节:

1、显示完整XPath:选中后,不再取消当前元素,而是直接切换

2、废除选项:复制XPath时覆盖现有,改为:复制XPath时,按Shift键可覆盖现有内容

3、Gecko内核:换回 xulrunner_60.0.26,低版本 xulrunner_45.0.34 仍会出现 COM 断开,体验太差

修复bug:

1、循环采集:整条数据或“关键规则”采集失败后,URL被回收多次

2、切换动态层:从当前层切换到动态层时,如果动态层使用了“模拟点击”,而当前层未使用,会导致“提取下一层XPath时出错: 未将对象引用设置到对象的实例”。 2019-07-31 V6.3.14 改进细节:

1、回收URL后,输出日志,以方便查看。

2、动作失败导致任务暂停后,不再提取网址、采集内容。 2019-07-27 V6.3.13

增加新功能:动态层

1、以支持解决验证码识别、表单输入等技术问题。

2、重构面板:扩展脚本 -> 扩展脚本与动态层

3、导航规则,增加选项:动态层标志(DynamicLayerFlag)

重构插件接口(IBget 5.2):

1、增加插件接口:使用插件设置输入参数(扩展脚本)

2、用于配合扩展脚本、动态层,增加插件与浏览器内核的交互能力。

小编点评

网络神采是一款轻量级的数据采集软件,该软件不需要安装,解压后即可使用,免费版本,无时间限制,可以用于快速采集、下载网页数据,并且支持网站登录采集、网站跨层采集、POST采集、脚本采集、动态页面采集等高级功能,是目前互联网上速度最快、效率最高的采集软件。全新的网络神采进行了全面优化和升级,速度快、好用、免费,支持智能采集(不用配规则)、可视化采集(不用看源文件),支持二次开发、分布式部署,可以为用户的大数据分析、信息化平台提供稳定、持续、准确的数据资源,欢迎免费下载体验。

其他版本

网友评论

  • 匿名发表