离线下载 | |
---|---|
获取电子书 |
该小节会从定义和用途上介绍一下搜索引擎爬虫.搜索引擎爬虫在整体用途中算少数.它主要是看robot.txt来获取页面的信息.然后尽可能快的,深的挖掘出互联网中的所有链接.按照前面所说,该类爬虫分为批量型,增量型和垂直型三类.
批量型
此类爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程.其流程图如下:但该类爬虫存在特定问题,就是当已经爬取的网站发生变化时,无法感知到其变化,导致资源失效。适用于那些那些很久不更新页面.对于那些更新频繁的,我们需要用到增量型.
增量型
.此类爬虫会根据自身的算法来实现周期性访问已经爬取过的网站,如果该网站有了变化,那么就会将变化记录下来,保证资源不失效,如果网站一切照旧,那么就不会去改变.流程图一般是这样的:一般商业搜索引擎的爬虫都是此类,为批量型的改进型。适用于绝大部分情况,是搜索引擎中使用最广泛的,承担着收录互联网中各种地址的重任.但该类爬虫往往注重于广度,即最大可能的抓取尽量多的链接,很容易出现深度不足的问题.而这问题,就靠垂直型爬虫来补充.
搜索引擎爬虫是一个非常高深的领域,里面基本都是大规模商用型爬虫,个人开发的很少,如果你读了这篇想进入搜索引擎爬虫的世界的话,那只有请你自己多加努力了。