【Day 10】- 你的爬虫是哪一类的? (网路爬虫的类型)

前情提要

前一篇文章带大家看了 BeautifulSoup 库的使用，用他来做资料清洗，使我们真正想要的资料能够从一堆资料内被清理出来。

本篇将介绍网路爬虫的类型，实际在撰写时可以知道现在正在撰写哪一类的爬虫，与他们沟通时也会比较方便。也预防别人说爬虫类型，却不知道那是什麽。

网路爬虫种类分为以下四类

通用网路爬虫又称全网爬虫。从命名上来看，可以大致了解此爬虫爬取的资料来自於全网际网路当中。

此爬虫爬取的资料量十分巨大，因此对爬虫的效能要求也是十分巨大的。此类爬虫常见的有 Google、Bing 等浏览器。

聚焦网路爬虫又称主题网路爬虫，此爬虫只会选择性的爬取需求的主题。与通用网路爬虫相比，省下爬取无关的资料，只会爬取需求的资料。

增量式网路爬虫的增量式指的是增量式更新。增量式更新代表更新时只更新改变的地方。

这类爬虫能保证只爬取到新资料，能尽量减小空间与时间的消耗，不过实作上较为复杂，实际开发中不太普及。

深层网路爬虫顾名思义就是爬取深层网页的爬虫，一般能透过静态网址达到的网页称为表层网页，需要透过 form 或其他形式达到的网页称为深层网页。而深层网页能获取的资料量理论上较大，因此会尽量爬取此页面。

实际上，聚焦网路爬虫、增量式网路爬虫及深层网路爬虫可被归纳为一种，即为大家常称的网路爬虫。通用网路爬虫则为搜寻引擎。

今天跟大家介绍了网路爬虫的类型，其实大部分的网路爬虫都是聚焦网路爬虫，而搜寻引擎为通用网路爬虫。

明天三天将会进行网路爬虫的实战，会带各位爬取 PTT 欧，也会带各位使用爬虫绕过已满 18 岁的确认。

杂谈

杂谈

杂谈

杂谈

杂谈

创世神创造了世界，还觉得不够，又做了一颗月球。过了两天觉得地球不够圆，决定把存在月球的 pi拿回来...

承上篇基本型别(primitive)：资料以纯值的形式存在。物件型别(object)：可能由零或...

本篇我们将实作音视讯的录制并下载，内容包含: 录制影片回放影片下载影片复制上一篇程序码 cp ...

了解昨天提到的主从运作流程後，今天来实际搭建主从架构~ 在前面我们起了一台VM当作Master，现在...

在实作RESTful api时，会需要模拟实际用户使用你的api的情境，这时候postman就派得上...