时间:2025-07-14 17:40
人气:
作者:admin
当前文档为博主分析当前公司可观测性相关能力过程中痛点与架构的思考,希望能为广大博友带来一些架构帮助与借鉴
注:为避免企业信息泄漏相关信息会进行脱敏,如后续公司均以fsdm来代替,相关平台与技术细节做模糊与省略处理等。如有细节探讨可联系博主
| case | 问题 | 关键问题 | 排查路径现状 | 期望排查路径 |
| 群内接口超时告警 | 无法准确定位当时链路,只能靠日志或人为分析 | 技术类告警未与trace关联 | 接到告警(1) -> 查询sls日志(2) -> 从日志中人为筛选出n条(3) -> 通过每条的traceid进行关联查询来源与参数(4) -> 打开Tracing平台查询链路,此时可能会没有(5) -> 打开监控平台查看当时请求波动(6) -> 通过sls或Tracing平台分析服务内部是否存在问题(7) -> 人为综合分析(8) | 接到告警(1) -> 一键跳转Tracing平台可直观看到来源、内部服务情况与请求波动(2) -> 可通过筛选某条日志的traceid进行日志查询(3) -> 人工分析 (长期可通过智能化手段进行“根因建议”) (4) |
| 错误日志异常报警 | 仅靠日志排查或人为分析调用来源 | errlog未与trace关联(目前仅有Exception代入,但其实大多数Exception没有业务或参数关键信息,基本无效) | ||
| 业务告警 | 如某阶段业务指标徒增。需排查来源 | 业务指标与trace割裂 | ||
| 查询消息链路 | 单个traceid关联出全天数据 | 对于长链接等异步场景可能只存在问题(trace生命周期管理?) | 通过消息sid或消息内容排查,纯靠日志中准确打印内容,如某个节点未打印关键信息,需人工分析时间区间日志,推断当时节点情况 | 通过traceid一键关联 |
| 查询mq消息来源 | 能查出好多无关紧要的日志。需人为过滤无效信息 | 通过traceid关联日志 。人为过滤无关信息,需保证日志内容准确打印,不然可能存在过滤失误加大分析难度 |
目前fsdm可观测性建设已具备良好基础,但需要系统性地解决当前的核心痛点。基于问题的紧急程度和影响范围采用分阶段解决策略,优先解决核心痛点,然后探索构建智能化体系,最终进行整体架构升级构建可观测性平台。



构建AIOps引擎(降低人为分析成本)降低人为分析成本:预测容量瓶颈、自动定位根因,异常传播分析

5. 更深一步

可观测性建设过程中的数据孤岛问题,其实在业界也是一个普遍性问题。从该案例中可以发现,数据孤岛的形成往往是历史演进的结果,不同可观测性能力在不同阶段各自发展,后续数据未进行互联互通。 更进一步,从可观测性延伸看,当前的基础设施能力已相对完善,关键挑战在于能力的整合与打通。后续架构分析与设计中,应着重考虑并解决这一问题。 美团可观测性平台Raptor 可观测性的 10 个最佳实践 Engineering Fundamentals Playbook Metrics, tracing, and logging Dapper,大规模分布式系统的跟踪系统 by bigbully tag-observability/whitepaper.md at main · cncf/tag-observability 分布式链路追踪在字节跳动的实践 - 墨天轮 可观测性成熟度模型白皮书
本文来自博客园,作者:房上的猫,转载请注明原文链接:https://www.cnblogs.com/lsy131479/p/18983690