评测:DIY-Page站群8.3版发布 免规则采集任意网址

来源:岁月联盟 编辑:河马 时间:2011-06-25

  国内站群领域开发商DIY-Page于6月24日推出了8.3新版本。据悉,该版本的最大亮点是支持免规则采集任意网站。官方人员介绍说,只要在程序中填写任意一个网址,不需要写任何规则,程序就能采集页面上的文章。此功能无疑非常神奇,笔者也看了官方提供的视频,演示中填写的是 admin5.com和另一家网站的首页。从视频中来看,没有编写任何规则,程序非常精确地采集到了两家网页首页上更新的最新文章,准确率是100%。不过这毕竟是官方的视频演示,笔者找机会实际对产品地了体验。

  由于DIY-Page官方有各种各样的活动,笔者参与并获得了一份免费的标准版授权软件。安装过程比较简单,是直接在服务器上安装的web程序,和同类系统没有什么区别。很快就能进入到采集中心,笔者点击“新建定向采集”,并填写了自己想要的网址:

  

  

  由于采集的是一个资讯网站,可以看到,采集结果如官方演示的一样,非常之精确(准确率100%),文章标题和内容都被完整提取了出来,如图所示:

  

  

  笔者又测试了几家同类资讯网站,结果一样非常让人满意。这种惊喜让笔者产生了一个新的想法:如果采集的不是资讯类网站呢?一个大胆的想法冒了出来:采集图片站试试:

  比较遗憾,图片站的采集结果不尽如人意。看来,这个定向采集功能基本上适用于资讯类、文章类的站点。不过好在站长需要采集的大部分都是这类站点,另外也不排除官方会继续开发针对其它类型网站的智能分析方法(在获赠标准版授权时,官方说可以终身免费更新到最新版本)。

  

5.jpg

  总体来说,这个免规则采集任意网站的功能,对站长还是非常实用的。笔者对采集规则编写应该说是非常熟练的,但如果采集的站量很大,这个功能还是能节省很多时间和精力。这样站长基本上只要搜索自己想要的网站,就能实现文章资讯的采集了,对站长的做站方式是一次重要的革新。

  笔者向官方人员询问了这个免规则采集的技术原理。本以为官方人员会比较忌讳这类问题,想不到他们讲得还比较细。其实每个网页都有自己的规律,像网站的标题,网站的主体内容,他们的HTML标签大概是怎么样,确实是有自己的套路。笔者手工编写过很多采集规则,对这一点也很有感触。应该说,只要程序能对这类规律做一个总结,能实现这样的免规则采集也不是特别高深。不过官方人员说,算法的关键就在这个总结的方式、对网页代码规律的经验积累上,这点笔者也是认同的。

  笔者还了解到,DIY-Page并不是一款采集软件,官方打出的旗号一直是“站群系统”。通过一段时间的使用,笔者发现DIY-Page站群的功能确实非常丰富,可以通过关键词采集搜索引擎中的相关文章(可以选十几个搜索引擎,中英文都有),有将几篇文章混合成一篇的伪原创功能(生成的文章比较像文摘),还可以生成纯原创(应该是用词语库组合的,没什么可读性)。还有好多功能,一时还用不到。由于系统是终身使用,也不收年费,笔者打算慢慢使用,慢慢体验