网站不想你爬

这边想说一下，关於上一篇有讲到我利用superagent()来获得网站资讯，结果抓取失败。这是因为不一定所有网站都愿意其他人随便沿用自己的东西，所以在网站後台可以让人设定禁止令之类的，防止他人搜索。
那要如何知道网站是否同意进行搜索，可以在网址根目录後加上robots.txt就会看到文字档纪录，像是用户代理、禁止目录…等等。下面是我上一篇失败网站的文字档。

总而言之，就是禁止了很多东西，导致我抓取失败了!
之後我稍微补充下robots.txt的基本应用吧。

常见用词：

User-agent => 对於那些搜索引擎生效
Disallow => 禁止进入的目录，需指名路径
Sitemap => 网站内sitemap档案位置，须完整路径

常见应用：

允许所有引擎检索
User-agent：*
Disallow：
拒绝所有引擎检索
User-agent：*
Disallow：/
拒绝所有引擎检索/users/下所有内容
User-agent：*
Disallow：/users/
拒绝Google搜图检索/images/下所有内容
User-agent：Googlebot-image
Disallow：/images/

<<: 浮点数的二进位表达方法

>>: 用React刻自己的投资Dashboard Day1 - 前言

网站不想你爬

React中的优先级

#14 No-code 之旅 — 怎麽利用 Chakra UI 去做 React 元件客制化？

【Side Project】点菜单功能实作 - 前台资料传到後台

网路的小技巧-3

[Day25] swift & kotlin 游戏篇！(7) 小鸡BB-游戏制作-API与游戏动画

【Day09】数据输入元件 - Upload

Leetcode: 1627. Graph Connectivity With Threshold

Day28 Flutter—BLoC介绍(二)

[第06天]理财达人Mx. Ada-下单作业

JavaScript 进阶笔记三（Primitive type VS Object type）