当前位置:首页 >专题 >Go 微服务可观测性与故障排查实战
Go 微服务可观测性与故障排查实战
日志、指标、链路追踪、pprof、健康检查与故障复盘
实战
中级
约320分钟
11浏览
这个专题面向正在维护 Go 微服务的开发者,目标是把线上排查需要的日志、指标、链路追踪、pprof、runtime 状态、健康检查、告警和复盘模板串成一套可执行方案。每篇文章都围绕一个真实排查问题,配套 AI 生成的思维导图、代码讲解图和运行逻辑图。
学习建议:建议按顺序阅读:先统一结构化日志,再设计 Prometheus 指标和 OpenTelemetry Trace,然后用 pprof、runtime/metrics 和 expvar 做深入诊断;第二阶段完善健康检查、goroutine 泄漏排查、错误告警、超时重试熔断和故障复盘。
10精选资源
10必学条目
2学习模块
5.3预计小时
建立 Go 可观测性信号
先把日志、指标、链路追踪、pprof 和 runtime 状态接起来。
文章
初级
必学
Go 结构化日志实践:slog、request_id 与错误上下文怎么设计
讲解 Go 服务如何用 slog 记录 request_id、trace_id、错误类型和业务字段,让日志可以直接支撑线上排查。
推荐理由:这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
文章
初级
必学
Go Prometheus 指标设计:RED、USE 与自定义业务指标落地
围绕 Go 服务指标体系,整理 RED、USE、Go runtime 指标和业务指标的设计方式。
推荐理由:这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
文章
中级
必学
Go OpenTelemetry 链路追踪:Context 传播、Span 设计与慢调用定位
介绍 Go 服务如何接入 OpenTelemetry,设计 Span、Attributes 和跨服务 Context 传播来定位慢调用。
推荐理由:这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
文章
中级
必学
Go pprof 在线诊断:CPU、内存与 goroutine 问题怎么定位
用 net/http/pprof 和 go tool pprof 定位 Go 服务 CPU 热点、内存分配和 goroutine 阻塞问题。
推荐理由:这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
文章
中级
必学
Go runtime/metrics 与 expvar:低成本暴露运行时状态
介绍 runtime/metrics 和 expvar 的使用方式,用低成本接口暴露 goroutine、GC、内存和自定义状态。
推荐理由:这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
形成线上故障排查闭环
用健康检查、泄漏排查、错误告警、超时熔断和复盘模板降低故障成本。
文章
初级
必学
Go HTTP 健康检查与优雅关闭:readiness、liveness 和 Shutdown 实战
讲解 Go 服务如何设计 /healthz、/readyz 和 http.Server.Shutdown,避免发布和重启时丢请求。
推荐理由:这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
文章
中级
必学
Go goroutine 泄漏排查:Context 取消、阻塞栈与泄漏定位
整理 goroutine 泄漏的常见原因,用 context、pprof dump 和阻塞栈分组定位泄漏源。
推荐理由:这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
文章
中级
必学
Go 错误处理与告警设计:errors 包装、日志字段与告警降噪
从 errors.Is、errors.As、结构化日志和指标标签出发,设计能定位问题又不会刷屏的告警体系。
推荐理由:这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
文章
高级
必学
Go 微服务超时、重试与熔断观测:避免故障放大的实践
讲解 Go 服务调用下游时如何设置超时预算、退避重试、熔断状态和可观测指标。
推荐理由:这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
文章
初级
必学
Go 线上故障复盘模板:日志、指标、链路追踪与 pprof 证据闭环
把日志、指标、链路追踪和 pprof 串成 Go 服务故障复盘模板,形成可复用的排查闭环。
推荐理由:这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
相关专题
继续沿着相近方向学习
专题信息
专题类型实战
适合阶段中级
学习时长320分钟
发布时间2026-06-12
查看更多
最新文章
-
- 前端长任务治理实战:用 PerformanceObserver 找出页面卡顿源头
- 2小时前 423浏览
-
- Java 性能优化上线清单:从定位、改造到灰度发布
- 1天前 860浏览
-
- Spring Boot 压测验证:Gatling、JMeter 与性能回归门禁
- 1天前 843浏览
-
- Resilience4j 熔断隔离降级:保护 Spring Boot 慢依赖
- 1天前 775浏览
-
- Logback 异步日志优化:高并发接口如何避免日志拖慢请求
- 1天前 758浏览

