优维全面可观测产品能力分解②:变更可观测

2024-01-30 05:04

本文主要是介绍优维全面可观测产品能力分解②:变更可观测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上周,我们推出了优维全面可观测能力介绍的系列性文章的第一篇:架构可观测。优维架构可观测是从系统架构的视角来呈现链路与服务的状态数据,点击可回看:架构可观测文章。本周,我们将推出本系列性文章的第二篇:变更可观测

故障60%到80% 是由于变更引起的。

对于生产环境的稳定性,是各个行业相关公司都关注的。尤其是对于金融行业及大型互联网公司来说,稳定性就显得更为重要,另外,从诱发稳定性问题的原因分析来说,变更问题所占据的比例,常年超过一半以上,而故障60%到80% 是由于变更引起的。历史上因此产生的重大故障不胜枚举。

当公司业务规模扩大,系统采用分布式结构后,会增加系统的复杂性。同时,随着业务复杂性的提升,不同部门间的协作关系也变得更加错综复杂。这样一来,在大型企业中,进行任何改动或变更的挑战就更大了。

所以,对于稳定性来说,业界的一个共识是:预测及防控变更风险,稳定性问题就解决了一半以上。

1

变更遇到的问题

虽然说业界有了上述的一个共识,但诱发线上问题的根因是多种多样的。就如优维交付团队在辅助客户进行生产上变更时,就遇到以下问题:

  • 变更过程难以观测:生产环境中超过60%的故障来源于主动变更,业务运维难以从变更的角度观察是否给应用系统引入异常,变更活动只能“听天由命”。
  • 变更存在信息孤岛:支撑系统运行的应用程序、计算资源、存储、甚至网络等等环节由不同部门负责管理,各个环节的运维变更犹如信息孤岛,业务运维难以掌握和管理这些变更给应用系统带来的影响。

基于上述存在的问题,优维「变更可观测」旨在帮助用户观测生产环境的系统变更行为,让业务运维可以更加准确地评估系统健康状态,同时辅助其更高效地处理变更引起的故障,确保系统的稳定性与连续性。

2

优维变更可观测能力

优维「变更可观测」以变更事件为出发点,以应用系统为中心,帮助用户主动发现变更引入的异常,防止轻微异常扩大成故障。同时,消除信息孤岛,拉通东西向变更、南北向变更及变更时间流构成三维立体的变更观测视角,为运维提供全方位的变更洞察。

整体技术思路

基于用户痛点的洞察,优维变更可观测的思路是打通两个维度。

第一个维度要从东西向视角打通应用系统过往的变更历史,知道应用系统做过哪些变更;第二个维度是要从南北向视角打通支撑应用系统的各级资源,弄清楚分别有哪些资源,掌握资源的运行状况。

通过掌握以上两个维度的信息,横向上从系统变更工单的视角出发,通过变更工单可查看系统本身服务是否有告警,服务当前的健康指标状况,以及之前是否有故障工单的存在。同时,纵向上可查看系统各级资源,如各种中间件、数据库、存储等资源是否有告警,是否有做过变更,及资源当前是否存在故障。

核心功能

基于全面技术框架的双重视角,变更可观测性引入了一个横向的时间轴维度,使用户能够追溯过去72小时内的系统变更全景。用户通过这一时间序列分析功能,可深度洞察近三日内系统所实施的所有变更活动及其具体事件详情,并在变更执行后,能够精准关联并揭示由此触发的各类告警与故障现象,从而实现对系统健康状态的持续监控与有效管理。

在纵向维度上,用户能够对比查看服务变更前后的告警状态演变。同时,通过引入系统资源图谱,使用户能够宏观把握各类资源的告警态势,并能进一步详细了解特定资源类型的实例分布及其性能指标情况。

当某类资源出现异常告警时,用户可以沿此路径进行递进式下探分析,精确获取关联资源的详细告警记录、变更历史及故障详情信息,以实现全方位、多层次的运维洞察与问题定位。

3

变更可观测的应用场景

变更可观测主要覆盖以下应用场景:

  1. 追踪变更历史:要掌握生产环境一切变更计划和行动,回溯多渠道、全类型的变更,包括不限于应用变更、配置变更、数据库变更等。
  2. 健康态势评估:帮助业务运维/系统运维了解变更后系统是否存在异常,多次变更之间是否存在相互影响,融合系统资源图谱、资源告警及其他事件来得到一个关于变更后系统健康态势的准确评估。
  3. 辅助故障诊断:基于系统访问架构,融合指标监控、告警和事件信息,辅助业务运维进行故障诊断。

4

变更可观测的四大场景价值

  1. 观测变更的服务是否存在异常:变更完成后通过应用系统的角度查看变更的服务时存在的异常情况,主动观测、主动解决变更后服务可能存在的健康问题,防止问题恶化演变成为故障。
  2. 订阅变更报告:当运维成熟度足够高以后,业务运维可以订阅指定系统的变更报告,以定时推送或故障推送的方式在远端获取变更详情。提高运维灵活性,提高运维成熟度。
  3. 观测应用系统依赖的资源是否存在异常:将观测视角沿南北向下钻到基础设施资源层面,防止资源异常影响上层应用程序,甚至业务的故障。
  4. 查看应用系统依赖的变更记录:消除部门间信息孤岛,为业务运维带来更加丰富、全面的系统变更信息。

变更可观测是提升生产环境稳定性的一个重要洞察能力,相关应用场景的功能实力也在逐步完善建设起来,我们希望能给用户带来更精益、更可靠的可观测能力。

这篇关于优维全面可观测产品能力分解②:变更可观测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/659176

相关文章

全面解析Golang 中的 Gorilla CORS 中间件正确用法

《全面解析Golang中的GorillaCORS中间件正确用法》Golang中使用gorilla/mux路由器配合rs/cors中间件库可以优雅地解决这个问题,然而,很多人刚开始使用时会遇到配... 目录如何让 golang 中的 Gorilla CORS 中间件正确工作一、基础依赖二、错误用法(很多人一开

深入浅出SpringBoot WebSocket构建实时应用全面指南

《深入浅出SpringBootWebSocket构建实时应用全面指南》WebSocket是一种在单个TCP连接上进行全双工通信的协议,这篇文章主要为大家详细介绍了SpringBoot如何集成WebS... 目录前言为什么需要 WebSocketWebSocket 是什么Spring Boot 如何简化 We

Spring Boot3.0新特性全面解析与应用实战

《SpringBoot3.0新特性全面解析与应用实战》SpringBoot3.0作为Spring生态系统的一个重要里程碑,带来了众多令人兴奋的新特性和改进,本文将深入解析SpringBoot3.0的... 目录核心变化概览Java版本要求提升迁移至Jakarta EE重要新特性详解1. Native Ima

全面掌握 SQL 中的 DATEDIFF函数及用法最佳实践

《全面掌握SQL中的DATEDIFF函数及用法最佳实践》本文解析DATEDIFF在不同数据库中的差异,强调其边界计算原理,探讨应用场景及陷阱,推荐根据需求选择TIMESTAMPDIFF或inte... 目录1. 核心概念:DATEDIFF 究竟在计算什么?2. 主流数据库中的 DATEDIFF 实现2.1

Java操作Word文档的全面指南

《Java操作Word文档的全面指南》在Java开发中,操作Word文档是常见的业务需求,广泛应用于合同生成、报表输出、通知发布、法律文书生成、病历模板填写等场景,本文将全面介绍Java操作Word文... 目录简介段落页头与页脚页码表格图片批注文本框目录图表简介Word编程最重要的类是org.apach

Linux中SSH服务配置的全面指南

《Linux中SSH服务配置的全面指南》作为网络安全工程师,SSH(SecureShell)服务的安全配置是我们日常工作中不可忽视的重要环节,本文将从基础配置到高级安全加固,全面解析SSH服务的各项参... 目录概述基础配置详解端口与监听设置主机密钥配置认证机制强化禁用密码认证禁止root直接登录实现双因素

全面解析MySQL索引长度限制问题与解决方案

《全面解析MySQL索引长度限制问题与解决方案》MySQL对索引长度设限是为了保持高效的数据检索性能,这个限制不是MySQL的缺陷,而是数据库设计中的权衡结果,下面我们就来看看如何解决这一问题吧... 目录引言:为什么会有索引键长度问题?一、问题根源深度解析mysql索引长度限制原理实际场景示例二、五大解决

MySQL追踪数据库表更新操作来源的全面指南

《MySQL追踪数据库表更新操作来源的全面指南》本文将以一个具体问题为例,如何监测哪个IP来源对数据库表statistics_test进行了UPDATE操作,文内探讨了多种方法,并提供了详细的代码... 目录引言1. 为什么需要监控数据库更新操作2. 方法1:启用数据库审计日志(1)mysql/mariad

Python循环结构全面解析

《Python循环结构全面解析》循环中的代码会执行特定的次数,或者是执行到特定条件成立时结束循环,或者是针对某一集合中的所有项目都执行一次,这篇文章给大家介绍Python循环结构解析,感兴趣的朋友跟随... 目录for-in循环while循环循环控制语句break语句continue语句else子句嵌套的循

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O