网站首页 全球最实用的IT互联网站!

人工智能P2P分享Wind搜索发布信息网站地图标签大全

当前位置:诺佳网 > 软件工程 > 软件设计 > 架构设计 >

企业可观测性架构分析(聚焦架构优化、业务有

时间:2025-07-14 17:40

人气:

作者:admin

标签:

导读:当前文档为博主分析当前公司可观测性相关能力过程中痛点与架构的思考,希望能为广大博友带来一些架构帮助与借鉴 注:为避免企业信息泄漏相关信息会进行脱敏,如后续公司均以...

当前文档为博主分析当前公司可观测性相关能力过程中痛点与架构的思考,希望能为广大博友带来一些架构帮助与借鉴

注:为避免企业信息泄漏相关信息会进行脱敏,如后续公司均以fsdm来代替,相关平台与技术细节做模糊与省略处理等。如有细节探讨可联系博主

 


分析fsdm当前可观测性建设现状,识别核心痛点,并提出系统性的解决方案,使可观测性能力更有效地在业务中应用与落地,最终实现:
  • 提升故障排查效率:缩短报警问题定位时间
  • 优化排查体验:构建统一的可观测性平台,提升研发和运维团队的工作效率
  • 增强业务保障能力:通过预测性监控进行提前预警
  • 为企业长期架构演进提供技术基座:设计可观测性平台架构,通过逐步演进以达到最终理想架构

2.1、已具备能力

fsdm在可观测性建设方面已具备三大核心能力: ✅ 日志串联(Logging) - 完成了分布式日志收集与聚合 - 支持链路trace的日志查询与分析 ✅ 链路追踪(Tracing) - 利用Tracing相关平台 - 实现了分布式调用链跟踪 ✅ 监控告警(Metrics) - 建立了基础监控指标体系 - 配置了关键业务告警规则

2.2、核心问题识别

基础设施相对完善,但存在以下关键问题: ???? 业务利用率不足
  • 研发团队仍主要依赖传统日志查看方式
  • 可观测性工具在故障排查中的使用率不高
  • 直接影响问题排查效率,平均定位时间较长
???? 数据孤岛严重
  • Metrics/Tracing/Logging三大能力相互分离
  • 缺乏统一的关联分析能力
  • 无法形成完整的问题排查闭环
???? 平台体验割裂
  • 告警通知与分析平台未打通
  • 如:超时告警无法在Tracing平台直接关联分析
  • 用户需要在多个平台间切换,操作复杂度高
    以下为具体case抽样:
case 问题 关键问题 排查路径现状 期望排查路径
群内接口超时告警 无法准确定位当时链路,只能靠日志或人为分析 技术类告警未与trace关联 接到告警(1) -> 查询sls日志(2) -> 从日志中人为筛选出n条(3) -> 通过每条的traceid进行关联查询来源与参数(4) -> 打开Tracing平台查询链路,此时可能会没有(5) -> 打开监控平台查看当时请求波动(6) -> 通过sls或Tracing平台分析服务内部是否存在问题(7) -> 人为综合分析(8) 接到告警(1) -> 一键跳转Tracing平台可直观看到来源、内部服务情况与请求波动(2) -> 可通过筛选某条日志的traceid进行日志查询(3) -> 人工分析 (长期可通过智能化手段进行“根因建议”) (4)  
错误日志异常报警   仅靠日志排查或人为分析调用来源 errlog未与trace关联(目前仅有Exception代入,但其实大多数Exception没有业务或参数关键信息,基本无效)
业务告警   如某阶段业务指标徒增。需排查来源 业务指标与trace割裂
查询消息链路   单个traceid关联出全天数据 对于长链接等异步场景可能只存在问题(trace生命周期管理?)   通过消息sid或消息内容排查,纯靠日志中准确打印内容,如某个节点未打印关键信息,需人工分析时间区间日志,推断当时节点情况 通过traceid一键关联  
查询mq消息来源 能查出好多无关紧要的日志。需人为过滤无效信息   通过traceid关联日志 。人为过滤无关信息,需保证日志内容准确打印,不然可能存在过滤失误加大分析难度
  对当前情况调研与分析,可观测性利用率不高的根本原因可归纳为以下三个层面:

3.1、体验层面:不好用

  • 工具链割裂:三大可观测性能力未深度集成,数据割裂并且缺乏统一入口
  • 操作路径冗长:从告警到根因定位需要跨多个平台,操作复杂

3.2、能力层面:有问题

  • Trace能力缺陷:对长链路、轮训线程、MQ等场景支持不友好
  • 采样策略问题:动态采样机制存在缺陷,导致关键告警数据无法查到(可能,需排查)
  • 数据准确性问题:如单个TraceID可能关联到全天数据,影响分析准确性
目前fsdm可观测性建设已具备良好基础,但需要系统性地解决当前的核心痛点。基于问题的紧急程度和影响范围采用分阶段解决策略,优先解决核心痛点,然后探索构建智能化体系,最终进行整体架构升级构建可观测性平台。
本类排行
相关标签
本类推荐

CPU | 内存 | 硬盘 | 显卡 | 显示器 | 主板 | 电源 | 键鼠 | 网站地图

Copyright © 2025-2035 诺佳网 版权所有 备案号:赣ICP备2025066733号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信