离线下载
获取电子书

bruintong · 更新于 2018-01-20 09:01:00

在文章的最开头,我来谈谈爬虫我是怎么入门的,希望能对你们有些启示.我从零基础开始入门的时候,是看着各种杂七杂八的教程过来的.这个零基础是真正的零基础,你能想象一个连数据库都不知道的是怎么过来的么,所以我在文章中有些地方掺杂了一些最基础的概念,就是希望一些完全没基础的也能很好的理解.如果你了解这个概念,可以把这部分略过.

网上的大多数教程,没有多少能谈谈爬虫的大体架构什么的.现在网络上有关于爬虫的资料用群魔乱舞来形容也不过分。各种上来之间扔一些早就过期的代码来执行一些最最最简单的工作.而且没有对这些代码的解释.这些爬虫没有存储,没有模块化,也没有反爬措施,如果出错了亦或者是被网站反爬了,那么那些初学者就会束手无策,也不知道能去哪儿问。于是乎,就觉得爬虫太难了,就放弃了.

这是只一方面,还有一个更大的坏处就是没有讲爬虫的道德和社会影响,这样只会造就一堆脚本小子,举个例子,国内安全领域的渗透资料,有多少人只知道拿着扫描器不分白天黑夜也不管对方是什么系统,只知道扫,这台不行换下一台。然后扫到了就觉得自己很厉害.试问,这样如何才能提高?更何况,这些严重浪费了国内的网络资源.严重的会影响到一些服务的正常运行.所以,我们要遵守一些爬虫操守.关于这个操守,我会在日后的文章里提到几次.

所以说,我这里只能算一个爬虫的蓝图构造器,因为爬虫可以用很多很多语言来写,而我不可能每种语言都写一遍过程代码,所以这里面不会涉及到代码,最多是提到一些可以用的库,一些可以加快速度的方法技巧.所以,如果是只想看具体某个语言的某个模块的实现代码的话,我这篇可能帮不到你太多.而如果是相对爬虫整体有个了解,有自己的蓝图规划的,这篇文章相信帮助到你.
当你了解了大约的构架后,只要再去学习一些对应语言的知识,那么不管使用什么语言,应该都能写出合乎标准的爬虫.

上一篇: 介绍 下一篇: 使用