【Day 10】- 你的爬虫是哪一类的? (网路爬虫的类型)

前情提要

前一篇文章带大家看了 BeautifulSoup 库的使用,用他来做资料清洗,使我们真正想要的资料能够从一堆资料内被清理出来。

开始之前

本篇将介绍网路爬虫的类型,实际在撰写时可以知道现在正在撰写哪一类的爬虫,与他们沟通时也会比较方便。也预防别人说爬虫类型,却不知道那是什麽。

网路爬虫的类型

网路爬虫种类分为以下四类

  • 通用网路爬虫
  • 聚焦网路爬虫
  • 增量式网路爬虫
  • 深层网路爬虫

通用网路爬虫 General Purpose Web Crawler

通用网路爬虫又称全网爬虫。从命名上来看,可以大致了解此爬虫爬取的资料来自於全网际网路当中。

此爬虫爬取的资料量十分巨大,因此对爬虫的效能要求也是十分巨大的。此类爬虫常见的有 Google、Bing 等浏览器。

聚焦网路爬虫 Focused Crawler

聚焦网路爬虫又称主题网路爬虫,此爬虫只会选择性的爬取需求的主题。与通用网路爬虫相比,省下爬取无关的资料,只会爬取需求的资料。

增量式网路爬虫 Incremental Web Crawler

增量式网路爬虫的增量式指的是增量式更新。增量式更新代表更新时只更新改变的地方。

这类爬虫能保证只爬取到新资料,能尽量减小空间与时间的消耗,不过实作上较为复杂,实际开发中不太普及。

深层网路爬虫 Deep Web Crawler

深层网路爬虫顾名思义就是爬取深层网页的爬虫,一般能透过静态网址达到的网页称为表层网页,需要透过 form 或其他形式达到的网页称为深层网页。而深层网页能获取的资料量理论上较大,因此会尽量爬取此页面。

实际上,聚焦网路爬虫、增量式网路爬虫及深层网路爬虫可被归纳为一种,即为大家常称的网路爬虫。通用网路爬虫则为搜寻引擎。

结语

今天跟大家介绍了网路爬虫的类型,其实大部分的网路爬虫都是聚焦网路爬虫,而搜寻引擎为通用网路爬虫。

明日内容

明天三天将会进行网路爬虫的实战,会带各位爬取 PTT 欧,也会带各位使用爬虫绕过已满 18 岁的确认。

补充资料

网路爬虫 智库 : https://wiki.mbalib.com/zh-tw/网络爬虫

不慌,带你透彻了解爬虫类型 : https://cloud.tencent.com/developer/news/333998


<<:  如何衡量万事万物 (4) 校准过度自信的估算

>>:  让按钮来个酷动态!操纵DOM事件:JavaScript篇 (一)

SystemC: 月球转运站

创世神创造了世界,还觉得不够,又做了一颗月球。 过了两天觉得地球不够圆,决定把存在月球的 pi拿回来...

[Day15] 传值或传址(下)

承上篇 基本型别(primitive):资料以纯值的形式存在。 物件型别(object):可能由零或...

Day13 [实作] 把视讯及音讯内容录制下来

本篇我们将实作音视讯的录制并下载,内容包含: 录制影片 回放影片 下载影片 复制上一篇程序码 cp ...

Day.12 主从搭建 - 部署流程(Master Slave Replication )

了解昨天提到的主从运作流程後,今天来实际搭建主从架构~ 在前面我们起了一台VM当作Master,现在...

建立第一个RESTful api server(番外篇)-postman使用(Day13)

在实作RESTful api时,会需要模拟实际用户使用你的api的情境,这时候postman就派得上...