从 IT 技术面细说 Search Console 的 27 组数字 KPI (7) ：网页的排除

SEO 要做到基本工是很简单的，就是把 Search Console 上面显示的错误都解决掉，上面说的警告或问题都知道原因且是在已知与合理的状态，这样流量就起来了。

虽然 Search Console 除了讲问题与警告外，也会讲已知道且有效的，但事实上有效的部份是最难除错的，因为若不是透过 SC 的 API，都只能抓到前 1000 笔资料，而无法知道 1000 笔以外的资讯，不要说更知前做错的事是那些无法知道，在抓不到全部资料时，也不知道那些是不正确有效的，因为也不可能一个个去 Inspect 检查。

当然可以随着一次又一次的除错或『做对』，每隔一段时间去看这些有效或是错误警告资讯的累积，这 1000 笔资料还是可以知道一定的问题点，虽然有时要加过滤条件，但持早会解决的，但前题是要找出所有资讯背後的原因，做对事是不须要修正的，但其他就有很多可能性了。

而在涵盖范围的项目中有主要的四项，包含前面所说的有效与错误，及警告和排除，最重要的是有效是没有问题的，最该避免的是错误，但警告往往也是错误的开始，而最麻烦的大概是『排除』这部份。

因为排除这部份就包含几种状况：

替代页面：这部份指的是有对的 Canonical 制式网址，通常不太会有甚麽问题，除非制式网址本身是错的就是另一件事。
页面会重新导向：这边虽然看起来是合理，但若网站这部份偏多，代表在连结建立上是有问题的，因为理论上大部份的转址是可以被制式网址取代的，但为了要指向对的网址而做转址 Redirect，这是浪费搜寻的预算 (Budget)，更者在计算连结时也是不利的，有时这是须要检讨的。
找不到 404、转址式 404、403 或其他 4xx 的问题：这边虽然问题不大，但也是要去思考为甚麽连结建立是如此多的找不到，是否有可能提前一步不要有这个连结或是直接 nofollow，让网站的品质更好。
遭到 robots.txt 封锁及遭到 noindex 标记排除：通常不会有人刻意去做 noindex 或是 disallow，若是有的话一定是有意义的，除非是做错才是问题，因此这部份该去检查的是否是失误，或是历史性的问题已解决的。
这是重覆网页：这包含三种『使用者未选取标准网页』、『Google 选择的标准网页和使用者的选择不同』及『已提交的网址未获选为标准网址』这三个，当然若没有 Canonical 的制式网址是第一种，是最糟糕且可以完全避免的，但後两者的问题很多元，有时是很难处理的，但大部份都可以解决。
已检索 - 目前尚未建立索引：这在网站经营中，这是一个很重要的指标，因此这是排除中会独立放在每次的检核表中，因为这往往代表的是格式与内容的问题，甚至是在 CSR 等网页产生时会发生的问题，这个可能可以独立一篇专题来讨论。
已找到 - 目前尚未建立索引：这往往是发生在新网站，在 Crawler Budget 不够时才会有，当然也有可能是这一系列的网址被 Google 认定完全不用爬，是因为之前爬的时候几乎是没意义的，若真的是没意义就还好，若是有意义的话说不定可能要用改网址下手。

前四种状况都是问题不大，若该是这样而排除就是正常，後三种问题才是有很大的问题，通常是要避免。

在上面七种中，最麻烦的就是『已检索目前尚未建立索引』，因为这原因是最不直觉，且可能性也最多，更不要说解决方法，单单原因就有几个方向：

这网页没甚麽内容，因此被 Google 认为没有索引 (Index) 的价值，这个问题是最常见，但甚麽样的状况才是没内容是困难的，有些是一眼就看得出来，有些见看不太出来，尤其是下面几种原因。
没有内容的问题有几种，最常见的就是 Client Side Render 的问题，也就是主要内容是透过 CSR 产生的，因此第一份 HTML 的确没内容，只是当然看到产出的页面又是有很多内容，且是用 Javascript 开发的，Google 虽然可以解出大部份的 CSR，但不代表可以 Render 出所有 CSR 的资讯，而要去跟 Google 挑战或是抗议，或许也可以先尝试自己的做法。
另一种没有内容的问题是在於支离破碎，其中可能没有用的 HTML5 Tag 让爬虫较好判断，甚至没有较大的，或者是都是不到 100 字，文字中间有一大堆图，或是用了一大堆的 inline CSS 都会让爬虫抓不到主要的段落，都有可能造成检索未索引的可能。
除了没有内容外，重覆的内容也是会出现在检索未索引常见的事，有时可以用文章的标题去 Google 看看，看能不能 Google 到，有时就会发现 Google 到另一篇相同会类似标题的文章，但不是同一页，这就是重覆内容，有时这个重覆内容可以用 canonical 解，尤其是语系的不同，但有时因为没有之间的关系就没办法组合在一起，就要花较多的工夫解决。
而在去年时，更发现 Google 对於列表形的网页也很容易未检索，包含搜寻页、标签页等等自动化产生的列表页，也因为这些列表页的元素在其它地方都会出现过，因此就会不检索，其中也包含这个列表页项目过少，例如不到三项，也会排除。
当然若网站做得好，有时还是会出现一些新的未检索，但这些只是暂时性的，有时直接 Inspect 或搜寻就会发现有收录，但有些是要过几天才会被收录，常期看 Search Console 的人就知道，Google 的 Bug 还挺多的。

在这边会导入两个重要的指数：

有效/(有效+排除)：当然这边有一个前题是错误与警告都是不该存在的，有就是绝对该立刻处理，因此可以乎略不计，而有效页面占比可以看到 Google 对於网站的成果观点，只是这边会有一个问题，排除越多不代表是错误，而排除越少说不定是中间页或是 Canonical 没有弄好，因此这数字现在只是做参考看其变化，以前会说到这数字应该是 20%~25% 之间，但现在已经不会把这数值当作是要检核，只会做参考。
检索未索引/有效：被排除并不代表不好的事，但检索未索引这数字是真的有问题，上面的问题除了第 6 项是 Google 本身检索判断效率的问题外，前五项都是或多或少可以避免的，当然有些是用把 CSR 改用 SSR 来解决，有些是丰富内容来解决，或是真的没办法就用 noindex 来解决，或是加上 nofollow 避免被检索到。

在 SEO 的经验中，无论是检索未索引这数值太高本身就不是好事，但有时是无法完全避免，毕竟很多内容好坏的判断这条线虽然 SEO 是 Google 说了算，但有时要考虑到使用者的动线与经营，还是无法避免。

所以有时是用是其『检索未索引/有效』这个指标来看，虽然随着网站越来来越到，检索未索引无法完全消除，但除有效的指标的目的是发生这问题的占比是须要被控制，在实务上这数值越低，Google 对这网站认为越有价值，随之流量就进来了。

<<: D1 安装Django以及尝试玩玩看

>>: Day 7 | 清单元件 - 纯文字

从 IT 技术面细说 Search Console 的 27 组数字 KPI (7) ：网页的排除

Day01 前言x初识CTF

[Day18] 跟我一起从头学 React 吧！Let's start learning React from Codecademy! ～ Intro to JSX 篇

Day18-Vue Router 路由设定(part1)

D-02-验证结果 ? ExpectedObjects

什麽是帕累托图？（20/80法则）

D3JsDay20笔画面量彩色图涂色彩亮面画笔—地理面量图(上)

Day 01：前言，这批很纯，快进来吧！

[NestJS 带你飞！] DAY16 - Configuration

WordPress 如何使用 MailerLite 发送电子报教学-提高读者回访率

根据 NIST SP 800-204通讯 (Communication) 是对基於微服务的应用程序是最为独有的