从 IT 技术面细说 Search Console 的 27 组数字 KPI (6) :网页

记得在日本的一本 SEO 书写了一个很生动的范例,一间公司业绩要成长,取决於业务员的数量,而网站的业务员就是网页,没有足够多的网页就不要去想业绩,而好的业务员就像是好的网页,除了要有够多的网页外也要有够好的网页。

上次说到在 Search Console 最重要的 KPI 是在一打开的第一页概述就有,也就是成效:总点击次数,因为这个数字很容易受到大环境的影响,甚至也包含是否是对使用者有价值的,若是 SEO 只用这 KPI 是很吃亏的。

因此会把流量当作是『最终外部 KPI』,这虽然是可以知道结果,但要如何达成绝不是单纯的,而是有很多事情做到才行,因此须要一个直接去检讨的 KPI,这个不受外部与内容好坏影响,且对 SEO 有很大影响的,就是『网页数』。

这个也是重要到在 Search Console 的概述,除了流量外的第二个区块:涵盖范围,而这个涵盖范围包括两个数字,一个是『有效网页』以及『网页含有错误』这两项,当然这边的有效页面称为『最终内部 KPI』,因为在还没有谈到好不好的页面之前,页面数是放再最前面的。

https://ithelp.ithome.com.tw/upload/images/20210906/20000065BWRm3XD9VA.png

从爬虫到搜寻引擎收录会有几个步骤:

  1. 发现网址,有可能是从网页上的连结或是 Sitemap 提供的连结,Google 就会去爬这个『新网页/New Discover』或是『更新旧网页/Refresh』。
  2. 当爬了之後,基本会有几个很重要的要素: HTTP 的回应码,canonical 的制式网址,metadata 的 robots 等等的几个项目,当然若是这几个环节有问题,就不会被收录,其中也包含 robots.txt 等等的几个项目。
  3. 若 Google 认为这网址有效之後,就会往下分析,有时会发现内容不够多,或是内容重覆的会被排除『检索而未索引』之类,但若没有内容与格式的问题就会下一部的往『强化/Enhancement』下一步走。
  4. 强化就包含手机的有效性、AMP 的有效性、Schema 结构化资料或是 Rich Result 的强化这部份会影响到 Google 愿不愿意收录或是直接发生错误。
  5. 当网页足够被索引收录,也包含经过强化等等的检验,最後会推给使用者,使用者会回报使用者状况,其中包含『CrUX/Chrome 使用者体验回报』,会对这个网页在 Core Web Vitals 做评分。

在这麽多的环节中,若有一个环节没有好好的转换过去,这数字就会每经过一个流程就随之降低,当然有时损失是很难避免的,就像是网站小、时间短或许还好控制,但时间一久,网站越来越大,不太可能把任何错误归零,但至少要做到是可知、可控,且不是因为系统性的问题一直在增加。

上面提到的页面是从 Google 发现网址开始,而发现网址有两种来源,一个是在网页上有连结,无论是内部连结或是外部连结,另一个就是 sitemap。

这边就会有一个很大家很容易忽略的问题:

网站到底要不要 Sitemap ?

当然 Sitemap 有其优缺点,Sitemap 有最大的优点,就是能够让 Google 找到这个网站的所有网址,尤其是网站一开始时交互连结没建立好时,要让 Google 索引到时最好的方式。

但 Sitemap 的问题更多:

  1. Sitemap 理论上是要来辅助 Google 找不到连结,但又想被 Google 收录时的方法,但这边有一个很大的问题,当一个网页没有任何其他网页连到这个页面时,我们称为孤岛页面,这在 SEO 是相当不好的,甚至依现在的 SEO 观点,包含不到 3 个其他网页有连结到也算是不良好的孤岛页面。
  2. Sitemap 最糟糕的是包含到错误的页面,这包含 404、noindex 等等的页面,但有时随着网站的发展,有些页面都会被被删除或是排除,此时就会发生在警告与错误时有一堆 sitemap 所造成的,而要避免这问题就是要维护好这些 sitemap,但实务上我们知道是不可能的,sitemap 往往是写了就不会有人管的,毕竟这是常人看不到的。
  3. Sitemap 最常见到的问题不是包含到错误页面,而是建立一大堆透过搜寻的方式所产生的页面,这些页面虽然不是错误,但也像第一点必然是孤岛页面,因为 Google 不会自己填入搜寻关键字去产生页面连结,更不要说这一页不会有连结。
  4. Sitemap 若是要辅助 Google 索引,更须要的是新网页,但很多网站的 sitemap 不是动辄全站的网址全写,也就是可能是上百万笔的资料,要 Google 从这百万笔资料很快找到新网页是不可能的,因此大部份都会建议用最多三天内的 RSS 来取代 sitemap。
  5. 当然有人问现在 sitemap 已经有时间的栏位去辅助爬虫去爬到最新的网页,但大部份的 sitemap 顶多只是加上建议周期,加上时间的并不多,更不要说是有去维护 sitemap 了。

Sitemap 最大的问题是平常不会有人去看去检查,这个几乎是做给机器读取的爬虫看的,不会有任何 QA 或使用者通报说 sitemap 是有问题的,要工程师去修改维护,更不要说很多网站 sitemap 都是用套件所产生的。

https://ithelp.ithome.com.tw/upload/images/20210906/200000655ePvAUcw3p.png

有效页面的来源上面这张图是故意降低马赛克的等级,让大家看这网站的网页位数比,可以看得出来即使不用 sitemap,Google 也是可以爬到大部份的网页,这个等级是数百万,而会用到 sitemap 主要是针对新网页,Google News 的 sitemap,以及 Video Sitemap,这些都是为了加快与强化使用,并不是用来产生网页或是给 Google 索引到所有的页面。

这边只好还是再说一次 SEO 的精义:找到有价值的读者想要找寻或有意义的资讯,与用对的讯息文字让其点阅。


<<:  Day6. Array & Hash 之间的组合应用

>>:  离职倒数25天:我想要在我的社交平台上分享我的创作,而不只是生活

[鼠年全马] W35 - Vue出一个旅馆预约平台(9)

这周很重要~要来写旅馆预约平台的 [预约功能] 在F2E API中有提供一个 [POST] 预约房型...

HERE mSDK - Map Rendering

作为一个地图SDK,最基础最重要的功能首先是地图呈现, 那麽今天我们仍然以 HERE mSDK (P...

PySide2和PyQt5区别

很多人其实不是很清楚为什麽笔者在部门开发会选择PySide2 而非PyQt5,虽然之前的文章有简单介...

1.2 Design System - 做的优缺点

职场好榜样J大教我的 3 件事 遇到问题从不抱怨、总是马上找解决方法,因为那正是公司需要我们的原因...

人脸辨识的流程--人脸识别

人脸辨识系统有三个步骤,人脸侦测、特徵撷取、人脸识别。 人脸识别(Face recognition)...