从 IT 技术面细说 Search Console 的 27 组数字 KPI (7) :网页的排除

SEO 要做到基本工是很简单的,就是把 Search Console 上面显示的错误都解决掉,上面说的警告或问题都知道原因且是在已知与合理的状态,这样流量就起来了。

虽然 Search Console 除了讲问题与警告外,也会讲已知道且有效的,但事实上有效的部份是最难除错的,因为若不是透过 SC 的 API,都只能抓到前 1000 笔资料,而无法知道 1000 笔以外的资讯,不要说更知前做错的事是那些无法知道,在抓不到全部资料时,也不知道那些是不正确有效的,因为也不可能一个个去 Inspect 检查。

当然可以随着一次又一次的除错或『做对』,每隔一段时间去看这些有效或是错误警告资讯的累积,这 1000 笔资料还是可以知道一定的问题点,虽然有时要加过滤条件,但持早会解决的,但前题是要找出所有资讯背後的原因,做对事是不须要修正的,但其他就有很多可能性了。

而在涵盖范围的项目中有主要的四项,包含前面所说的有效与错误,及警告和排除,最重要的是有效是没有问题的,最该避免的是错误,但警告往往也是错误的开始,而最麻烦的大概是『排除』这部份。

https://ithelp.ithome.com.tw/upload/images/20210907/20000065mlWO8Rl7NP.png

因为排除这部份就包含几种状况:

  1. 替代页面:这部份指的是有对的 Canonical 制式网址,通常不太会有甚麽问题,除非制式网址本身是错的就是另一件事。
  2. 页面会重新导向:这边虽然看起来是合理,但若网站这部份偏多,代表在连结建立上是有问题的,因为理论上大部份的转址是可以被制式网址取代的,但为了要指向对的网址而做转址 Redirect,这是浪费搜寻的预算 (Budget),更者在计算连结时也是不利的,有时这是须要检讨的。
  3. 找不到 404、转址式 404、403 或其他 4xx 的问题:这边虽然问题不大,但也是要去思考为甚麽连结建立是如此多的找不到,是否有可能提前一步不要有这个连结或是直接 nofollow,让网站的品质更好。
  4. 遭到 robots.txt 封锁及遭到 noindex 标记排除:通常不会有人刻意去做 noindex 或是 disallow,若是有的话一定是有意义的,除非是做错才是问题,因此这部份该去检查的是否是失误,或是历史性的问题已解决的。
  5. 这是重覆网页:这包含三种『使用者未选取标准网页』、『Google 选择的标准网页和使用者的选择不同』及『已提交的网址未获选为标准网址』这三个,当然若没有 Canonical 的制式网址是第一种,是最糟糕且可以完全避免的,但後两者的问题很多元,有时是很难处理的,但大部份都可以解决。
  6. 已检索 - 目前尚未建立索引:这在网站经营中,这是一个很重要的指标,因此这是排除中会独立放在每次的检核表中,因为这往往代表的是格式与内容的问题,甚至是在 CSR 等网页产生时会发生的问题,这个可能可以独立一篇专题来讨论。
  7. 已找到 - 目前尚未建立索引:这往往是发生在新网站,在 Crawler Budget 不够时才会有,当然也有可能是这一系列的网址被 Google 认定完全不用爬,是因为之前爬的时候几乎是没意义的,若真的是没意义就还好,若是有意义的话说不定可能要用改网址下手。

前四种状况都是问题不大,若该是这样而排除就是正常,後三种问题才是有很大的问题,通常是要避免。

在上面七种中,最麻烦的就是『已检索 目前尚未建立索引』,因为这原因是最不直觉,且可能性也最多,更不要说解决方法,单单原因就有几个方向:

  1. 这网页没甚麽内容,因此被 Google 认为没有索引 (Index) 的价值,这个问题是最常见,但甚麽样的状况才是没内容是困难的,有些是一眼就看得出来,有些见看不太出来,尤其是下面几种原因。
  2. 没有内容的问题有几种,最常见的就是 Client Side Render 的问题,也就是主要内容是透过 CSR 产生的,因此第一份 HTML 的确没内容,只是当然看到产出的页面又是有很多内容,且是用 Javascript 开发的,Google 虽然可以解出大部份的 CSR,但不代表可以 Render 出所有 CSR 的资讯,而要去跟 Google 挑战或是抗议,或许也可以先尝试自己的做法。
  3. 另一种没有内容的问题是在於支离破碎,其中可能没有用 的 HTML5 Tag 让爬虫较好判断,甚至没有较大的 ,或者是 都是不到 100 字,文字中间有一大堆图,或是用了一大堆的 inline CSS 都会让爬虫抓不到主要的段落,都有可能造成检索未索引的可能。
  4. 除了没有内容外,重覆的内容也是会出现在检索未索引常见的事,有时可以用文章的标题去 Google 看看,看能不能 Google 到,有时就会发现 Google 到另一篇相同会类似标题的文章,但不是同一页,这就是重覆内容,有时这个重覆内容可以用 canonical 解,尤其是语系的不同,但有时因为没有之间的关系就没办法组合在一起,就要花较多的工夫解决。
  5. 而在去年时,更发现 Google 对於列表形的网页也很容易未检索,包含搜寻页、标签页等等自动化产生的列表页,也因为这些列表页的元素在其它地方都会出现过,因此就会不检索,其中也包含这个列表页项目过少,例如不到三项,也会排除。
  6. 当然若网站做得好,有时还是会出现一些新的未检索,但这些只是暂时性的,有时直接 Inspect 或搜寻就会发现有收录,但有些是要过几天才会被收录,常期看 Search Console 的人就知道,Google 的 Bug 还挺多的。

在这边会导入两个重要的指数:

  1. 有效/(有效+排除):当然这边有一个前题是错误与警告都是不该存在的,有就是绝对该立刻处理,因此可以乎略不计,而有效页面占比可以看到 Google 对於网站的成果观点,只是这边会有一个问题,排除越多不代表是错误,而排除越少说不定是中间页或是 Canonical 没有弄好,因此这数字现在只是做参考看其变化,以前会说到这数字应该是 20%~25% 之间,但现在已经不会把这数值当作是要检核,只会做参考。
  2. 检索未索引/有效:被排除并不代表不好的事,但检索未索引这数字是真的有问题,上面的问题除了第 6 项是 Google 本身检索判断效率的问题外,前五项都是或多或少可以避免的,当然有些是用把 CSR 改用 SSR 来解决,有些是丰富内容来解决,或是真的没办法就用 noindex 来解决,或是加上 nofollow 避免被检索到。

在 SEO 的经验中,无论是检索未索引这数值太高本身就不是好事,但有时是无法完全避免,毕竟很多内容好坏的判断这条线虽然 SEO 是 Google 说了算,但有时要考虑到使用者的动线与经营,还是无法避免。

所以有时是用是其『检索未索引/有效』这个指标来看,虽然随着网站越来来越到,检索未索引无法完全消除,但除有效的指标的目的是发生这问题的占比是须要被控制,在实务上这数值越低,Google 对这网站认为越有价值,随之流量就进来了。


<<:  D1 安装Django以及尝试玩玩看

>>:  Day 7 | 清单元件 - 纯文字

D3JsDay20笔画面量彩色图涂色 彩亮面画笔—地理面量图(上)

面量图介绍 面量图又称分层设色图、区域密度图(Choropleth map),高中地理课本的说明是在...

Day 01:前言,这批很纯,快进来吧!

这三小系列 本来我报名了软件开发组,但是我某天忘记发文了~ 所以再开了新系列拿个参加奖 Who Am...

[NestJS 带你飞!] DAY16 - Configuration

前一篇我们运用 Dynamic Module 与 dotenv 设计了一个简单的环境变数管理模组,但...

WordPress 如何使用 MailerLite 发送电子报教学-提高读者回访率

当我们在网站定期更新有价值的内容时,我们会累积一些读者对我们的文章内容感兴趣,当我们发布文章时,有些...

根据 NIST SP 800-204通讯 (Communication) 是对基於微服务的应用程序是最为独有的

以下是 NIST SP 800-204 的摘录: 典型的基於微服务的应用程序的部署堆栈中存在六层,如...