AIOps探索 | 应急处置中排障的降本增效方法探索(上)

2023-11-22 18:36

本文主要是介绍AIOps探索 | 应急处置中排障的降本增效方法探索(上),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章来源:公众号ID-布博士(擎创科技资深产品专家)

哈喽~友友们大家好,最近运维界也是蛮热闹的,前有语雀多次崩溃,后有阿里全系产品集体故障,不管是哪种,都足够逼疯一个运维工程师。所以,本次分享楼主想就运维过程中“应急处置”分享一些看法,希望对你们有所帮助。

全部内容分为上下两篇,本次分享主要说一下以下内容:

一、传统调用链系统与CMDB系统的缺陷

二、服务所有权模型是什么?

三、服务所有权模型分类

感兴趣的朋友可以一键先马后看~

一、调用链系统与CMDB系统的缺陷

在事件管理及应急场景的场景下,一般会造成业务服务和技术服务故障,如应用系统、微服务架构等不同的技术组件。为了实现对业务的影响分析、查看技术组件的相互依赖关系以及进行根因排查分析,通常需要构建调用链路系统和cmdb等来可视化业务层的交易链路和应用系统各技术组件之间的拓扑关系。然而,根据我近5年接触的项目经验,这两套系统的构建存在以下缺陷:

1.调用链路系统

  • 成本高+周期长:需要对不同厂商和不同技术栈(如cs架构、bs架构等)的系统进行不同程度的改动,成本较高且项目周期较长。

  • 短期效果不明显:在出现告警后,相应的运维工具系统之间需要进行大量的集成工作,短期内很难看到效果。

2.cmdb系统

  • 适配周期长:最近几年,一些AIOPS厂商过度炒作了cmdb的重要性,似乎没有cmdb就无法进行基于拓扑的排障分析。然而,在现实案例中,我们发现为了维护一套高标准的cmdb系统,企业需要进行至少一年甚至几年的治理过程,包括解决数据质量问题、提高数据更新效率、降低维护成本以及解决数据缺失等问题。

  • 不适合多场景运用:维护成本高昂且由于cmdb需要应对多种应用场景,不可能面面俱到,导致在实施过程中最终产出的结果更像是一个“四不像”。

那么问题来了,在事件管理及应急场景下有没有一种低成本且高效的方法可以快速地构建排障拓扑、实现业务层和技术组件层的链动分析,加速排障过程的系统模型呢?

答案是有的,那就是“服务所有权模型”。

二、服务所有权模型是什么?

近年我接触到的许多国内大型的金融机构,经常会发生一些有趣的事情,其中之一就是他们在出现事件后或应急的场景下就会研发各种工具试图弄明白当前正在发生什么事件、事件的告警对象依赖什么、谁在对告警对象提供服务、哪些业务受到影响?

在故障场景下,最理想的状态就是你可以清楚地看到你要解决的事件对业务、对依赖的技术组件和客户的影响,这种方式便被称为服务所有权模型。这种模型使开发、测试、运维人员能够更贴近客户、业务和要交付的价值。

三、服务所有权模型分类

1.业务服务

直接向用户提供价值的服务,如信用卡、网上商城等,这些是客户直接接触的,也是企业向自己的客户提供的服务目录,通常最终客户并不会关注你提供的信用卡服务是运行在x86的服务器上,还是oracle的数据库上,他们只关注该服务提供的业务价值是什么、服务标准及规范是什么?当客户不能刷卡时,直接电话callcenter即可。

2.技术服务

属于完成对业务服务的技术支撑平台,如某东提供网上商城,用户只需要在浏览器或手机端浏览商品并下单即可,但是他后台需要很多的技术组件为其提供业务服务,如移动端ios版本、移动端安卓版、csn服务、均衡负载、tomcat中间件等。

通过构建相互之间的依赖关系,可以将企业内部众多的业务服务和技术服务串到一起,形成一张巨大的企业服务网络拓扑,而其中的每一个节点即为一种服务,每一种服务都由独立的团队对其进行开发、测试、运维,保障服务的连续性。

模型构建完成的样子及能力介绍

如上图所示,一个典型的电子商务平台的服务所有权模型,在事件或应急场景下,能够实现以下能力:

1.将业务链路层和技术组件层告警进行有效关联

通过该模型提供的管理能力,在不构建cmdb和调用链路分析及埋点的情况下,将业务服务相互之间的相互调用关系、业务服务同技术服务之间的依赖关系清晰地刻画出来,从而在事件和应急场景下对告警进行有效关联。

2.业务影响分析和技术组件影响分析

通过服务所有权模型,可以清晰地了解业务服务和技术服务之间的依赖关系,帮助分析事件对业务和技术组件的影响。如上图,可以清晰看到最底层的技术服务组件“mysql - 库存”出现问题后导致直接依赖他的技术组件”库存api”和“redis - 缓存“出现故障,并最终通过”订单api“服务,影响到了三个业务服务,分别是”结算“、”移动商城“、”网上商城“。

3.促进团队协作

服务所有权模型使开发、测试和运维人员能够更贴近客户、业务和交付的价值。它帮助团队更好地理解服务的所有权和责任,并加强团队之间的协作和沟通。

4.加速排障过程

服务所有权模型提供了一个全方位的视角,使团队能够总览整个故障拓扑,它消除了孤立环境和沟通差距,提高了组织快速响应客户需求的能力。

5.可视化根因分析

由于可以总览整个故障拓扑,使运维团队在分析根因时不再是一条条独立的告警,而是可以从总览拓扑的视角查看整个故障的完整上下文,协助运维人员进行可视化根因分析。

其他更多能力……

本次内容到这里就告一段落了,下期会跟大家具体说说在实践场景中如何逐步落地服务所有权模型,也会给大家推荐一些比较好用的模型存储以及计算方案,感兴趣的朋友可以关注起来~

供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~

这篇关于AIOps探索 | 应急处置中排障的降本增效方法探索(上)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/412097

相关文章

Python中提取文件名扩展名的多种方法实现

《Python中提取文件名扩展名的多种方法实现》在Python编程中,经常会遇到需要从文件名中提取扩展名的场景,Python提供了多种方法来实现这一功能,不同方法适用于不同的场景和需求,包括os.pa... 目录技术背景实现步骤方法一:使用os.path.splitext方法二:使用pathlib模块方法三

Python打印对象所有属性和值的方法小结

《Python打印对象所有属性和值的方法小结》在Python开发过程中,调试代码时经常需要查看对象的当前状态,也就是对象的所有属性和对应的值,然而,Python并没有像PHP的print_r那样直接提... 目录python中打印对象所有属性和值的方法实现步骤1. 使用vars()和pprint()2. 使

CSS实现元素撑满剩余空间的五种方法

《CSS实现元素撑满剩余空间的五种方法》在日常开发中,我们经常需要让某个元素占据容器的剩余空间,本文将介绍5种不同的方法来实现这个需求,并分析各种方法的优缺点,感兴趣的朋友一起看看吧... css实现元素撑满剩余空间的5种方法 在日常开发中,我们经常需要让某个元素占据容器的剩余空间。这是一个常见的布局需求

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

Maven 配置中的 <mirror>绕过 HTTP 阻断机制的方法

《Maven配置中的<mirror>绕过HTTP阻断机制的方法》:本文主要介绍Maven配置中的<mirror>绕过HTTP阻断机制的方法,本文给大家分享问题原因及解决方案,感兴趣的朋友一... 目录一、问题场景:升级 Maven 后构建失败二、解决方案:通过 <mirror> 配置覆盖默认行为1. 配置示

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔

Java中Map.Entry()含义及方法使用代码

《Java中Map.Entry()含义及方法使用代码》:本文主要介绍Java中Map.Entry()含义及方法使用的相关资料,Map.Entry是Java中Map的静态内部接口,用于表示键值对,其... 目录前言 Map.Entry作用核心方法常见使用场景1. 遍历 Map 的所有键值对2. 直接修改 Ma

Mybatis Plus Join使用方法示例详解

《MybatisPlusJoin使用方法示例详解》:本文主要介绍MybatisPlusJoin使用方法示例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录1、pom文件2、yaml配置文件3、分页插件4、示例代码:5、测试代码6、和PageHelper结合6

Java中实现线程的创建和启动的方法

《Java中实现线程的创建和启动的方法》在Java中,实现线程的创建和启动是两个不同但紧密相关的概念,理解为什么要启动线程(调用start()方法)而非直接调用run()方法,是掌握多线程编程的关键,... 目录1. 线程的生命周期2. start() vs run() 的本质区别3. 为什么必须通过 st