bruintong · 更新于 2018-07-19 22:00:41

该小节会从定义和用途上介绍一下搜索引擎爬虫.搜索引擎爬虫在整体用途中算少数.它主要是看robot.txt来获取页面的信息.然后尽可能快的,深的挖掘出互联网中的所有链接.按照前面所说,该类爬虫分为批量型,增量型和垂直型三类.

  • 批量型
    此类爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程.其流程图如下:png但该类爬虫存在特定问题,就是当已经爬取的网站发生变化时,无法感知到其变化,导致资源失效。适用于那些那些很久不更新页面.对于那些更新频繁的,我们需要用到增量型.

  • 增量型
    .此类爬虫会根据自身的算法来实现周期性访问已经爬取过的网站,如果该网站有了变化,那么就会将变化记录下来,保证资源不失效,如果网站一切照旧,那么就不会去改变.流程图一般是这样的:png一般商业搜索引擎的爬虫都是此类,为批量型的改进型。适用于绝大部分情况,是搜索引擎中使用最广泛的,承担着收录互联网中各种地址的重任.但该类爬虫往往注重于广度,即最大可能的抓取尽量多的链接,很容易出现深度不足的问题.而这问题,就靠垂直型爬虫来补充.

  • 垂直型
    垂直型爬虫一般是作为特定行业内的深度搜索引擎的爬虫而工作的,只抓取特定行业的数据,这样可以最大程度的减少无关信息的影响,但其最大的难度是对于消息的判断,存在错误和遗漏.换言之,就是深度优先策略,即最大可能的抓取尽量深的链接。其运作模式与增量型除了最开始加一个判断模块外,大体相同.只不过一个偏向于广度,一个偏向于深度.流程图如下:png此爬虫与增量型爬虫互相补充,共同为搜索引擎服务.

搜索引擎爬虫是一个非常高深的领域,里面基本都是大规模商用型爬虫,个人开发的很少,如果你读了这篇想进入搜索引擎爬虫的世界的话,那只有请你自己多加努力了。