[Day18] Operations Suite

今天我们来介绍云端的监控, Cloud Operations Suite 。这个服务以前被称做 Stackdriver 。云端的监控总共可以分为,Monitoring、Logging、Error Reporting、Tracing 以及 Debugging。

这些监控相关的程序 (Agent) 支援跨平台,除了 GCP 之外,也可以安装在 AWS 或是自己的主机上面,这些服务皆有免费额度可以使用。

Monitoring

服务器的监控是一件非常重要的事情,这是 SRE (Site Reliability Engineering) 最重要的工作。

Monitoring 支援了各种的指标,包含平台、系统、应用程序,可以将图表、警报显示於仪表板 (Dashboards) 中。

Logging

Cloud Logging 提供分析 GCP 以及 AWS 上的各种事件,Logging 包含了 纪录的储存、使用者介面 (Log Viewer) 以及 API,可以透过程序化的方式管理 Log。

与 Monitoring 一样,我们也可以透过脚本将 Agent 安装在自己的服务器中,监控服务器的网路流量、IP 来源等资讯。如果我们想要 Query 大量的 Logging 资料,也可以使用 BigQuery 等程序来达成。

Error Reporting

Error Reporting 可以统计、分析在云端服务中的各种错误,提供了错误的通知、仪表板等功能。支援 App Engine 、 Apps Script 、 Compute Engine 、 Cloud Functions 、 Cloud Run 、 GKE 、 Amazon EC2 等平台。当我们使用以上的平台,部属过程与运行过程发生任何的错误,都可以在 Error Reporting 中找到相应的 Log。

目前支援的程序语言有 Go、Java、Node.js、PHP、Python、Runy。

Tracing

Cloud Tracing 是一个分散式的追踪系统,可以追踪并蒐集延迟 (latency) 相关的资料。蒐集的目标包含App Engine 、 HTTP(S) 附载平衡器,或其他 Cloud Trace SDKs 支援的目标。可以接近即时的显示资讯,包含了延迟报告、每个 URL 相关的延迟资讯。

Debugging

Cloud Debugging 可以在不停止程序的状况下检查程序。包含了 Snapshot 与 Logpoints 功能。

Snapshot 功能可以将程序的 Call Stack 以及区域变数等资料全部都 Dump 出来,以方便侦错;Logpoints则可以在服务中插入 Log,方便监控。

目前支援的语言有 Java、Python、Go、Node.js、Ruby、PHP 以及 .NET Core


<<:  [Day18] THM AgentSudo

>>:  Day18-Session 管理(二)

Day7 开机学习 Lua - 条件判断与回圈控制

上一回分享的是,Lua 标准函式库 今天想来探索 Lua 条件判断与回圈控制,再次回到 CC: Tw...

Angular Stock Route Guards (Day31)

虽然铁人赛比完了,但是我依然会把这个专案继续写下去,如果还没看之前Angular Stock的朋友,...

教练,我想自干作业系统!

前言 写一个 OS 是多麽美好的事,在有限的生命中千万不要遗漏了它。 -- 王佑中博士 笔者在开始撰...

伸缩自如的Flask [day 8] ajax with jquery

在[day 7]使用form tag 来进行submit的时候,不知道大家心里会不会有个疑问? 我要...

html表格-合并储存格

想要在html表格中完成合并储存格的效果,需要用到rowspan和colspan分别为垂直和水平合并...