引用自维基百科:
网路爬虫(英语:web crawler),也叫网路蜘蛛(spider),是一种用来自动浏览全球资讯网的网路机器人。其目的一般为编纂网路索引。
网路搜寻引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网路爬虫可以将自己所存取的页面储存下来,以便搜寻引擎事後生成索引供使用者搜寻。
爬虫存取网站的过程会消耗目标系统资源。不少网路系统并不默许爬虫工作。因此在存取大量页面时,爬虫需要考虑到规划、负载,还需要讲「礼貌」。 不愿意被爬虫存取、被爬虫主人知晓的公开站点可以使用robots.txt档案之类的方法避免存取。这个档案可以要求机器人只对网站的一部分进行索引,或完全不作处理。
简而言之,就是可以帮你自动蒐集网页上资讯的程序拉。
欸!不对耶,这麽简单的东西还需要介绍吗?
嘿嘿嘿,魔鬼藏在细节里,不知道大家有没有注意到几个重点:
爬虫存取网站的过程会消耗目标系统资源。
不少网路系统并不默许爬虫工作。
爬虫需要考虑到规划、负载。
是的,这几点才是网路爬虫的博大精深之处!
那麽要怎麽样才能做到呢?那得先对网路有一个基本的了解。
所以接下来的篇章开始,将会陆续介绍网路爬虫需要知道的知识。
准备好了吗!?GOGOGO!!
[1] Wiki - 网路爬虫
<<: 【Day03】渲染元素 Rendering Element
像是React这个框架能够使用Hooks来写出一些function component,可以让前端不...
var myArr = ['燃面', '生菜', '花椒']; myArr.a = '雉鸡'; //...
今天我们要来模拟基於柴比雪夫不等式的异常值检测,首先我们先用NumPy产生一条随机乱数 import...
=== 书接上回 [Day 20] Edge Impulse + BLE Sense实现唤醒词辨识(...
昨天我们新增了一个 UserServiceWithFile 操作本地端档案来管理使用者资料,而档案的...