通过自动化运维实现无人值守的故障自愈

2024-04-12 17:28

本文主要是介绍通过自动化运维实现无人值守的故障自愈,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        故障自愈指实时发现告警,预诊断分析,自动恢复故障,并打通周边系统实现故障的快速恢复。通过故障自愈提升企业网络系统可用性、降低排障处置人力投入,实现从“人工处置”到“无人值守”的转变。

        针对运维中对故障自愈能力的需求,北京智和信通在实时监控告警的基础上,搭载可视化运维配置模块,通过赋予用户自定义编辑故障自愈策略的能力,实现无需针对告警进行手动处置,只需预编排告警处理流程,平台根据场景自动触发,从而做到故障自愈。

第1章 故障自愈──以(磁盘爆满自动清理为例)

        对各类设备进行批量、定时、条件触发等操作,通过自动化执行实现在网络、设备出现故障时的自动排障和自愈,释放运维人力。下面以磁盘爆满自动清理为例,介绍如何通过智和网管平台实现故障自愈。

        效果要求:当服务器磁盘使用率超过90%时,触发自动清理策略,释放磁盘空间。

        第一步:将需要管理的服务器纳入平台进行监控,并将监视器设置为磁盘使用率超过90%进行严重告警。

        第二步:进入安管模块的运维编排菜单,创建磁盘爆满自动清理策略。根据真实排障过程,通过进行策略节点拖拽编排的方式规划自愈流程。

        第三步:配置触发方式。方式支持通过告警触发和通过时间触发两种方式进行,为实现故障自愈的效果,我们选择通过匹配告警的方式触发策略。

        编排流程配置完成后,设备出现对应的严重级别告警后,立即触发磁盘清理策略,自动执行编排内的操作,对故障进行校验和处置。并在执行过程中,对每一步处置操作进行记录形成日志,确保有迹可循。

第2章 自定义应急处置,实现多场景下故障自愈

        在故障自愈方案中,核心是精确定位告警并匹配到适宜用户应用场景的故障自愈策略。一个符合用户需求的自愈策略,将为用户节约80%的故障处理时间。

        因此,北京智和信通提供从实时监控异常状态到告警收敛降噪、定位故障根因的高精确告警方案,并通过可视化编排工具,支持以拖拽的方式快速简单地完成作业流程的配置,将复杂的运维工作和任务转变为一致的,可复用的、可度量和有效的工作流,实现自动化运维。

        故障自愈方案的整体流程从获取精准告警开始,到预诊断分析,判断告警类型和级别,一般告警触发自愈策略,平台进行自动恢复,严重复杂告警则通过告警通知、运维工单等形式通知运维管理人员,进行人工处理,从而实现故障的快速治愈。

第3章 实时发现异常,智能故障收敛

        智和信通故障自愈方案一体化集中监控各类IT资源,全量汇聚性能、事件、日志、流量等异常告警信息。充分利用积累的有效定障、排障经验,打通综合监控、IP合规性监测、流量透视、自动运维、运维工单等关联数据,实现从告警检测到排障恢复的全生命周期闭环管理。

3.1.实时监控,全面汇聚告警信息

        实时监控、感知全网性能状态,通过主动沦陷与日志解析的方式,动态呈现网络态势,覆盖网络中各类软硬件设备,洞察设备、资源、链路性能。采用多种告警机制,自定义配置告警阈值,从众多的状态信息和日志数据中,将零散的信息总结成当前态势并进行实时分析,对异常情况进行告警。

3.2.事件接收,日志汇总分析

        接收Trap、Syslog、Filter Alarm等事件信息和设备日志数据,集中存储、解析、提取有效信息,将事件与日志存储为可统计分析的结构化数据,呈现日志数据价值。根据对事件、日志数据的挖掘与分析,通过配置告警规则和场景,将异常日志自动转化为告警,定位其影响范围。

3.3.告警降噪,快速定位根因

        采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告警降噪机制,通过AI算法,对各类告警进行自动压缩收敛,减少90%的无效告警,抑制告警风暴,直达故障根因。包括事件过滤机制、故障事件上报机制、故障事件呈现过滤、故障事件入库过滤、故障事件确认等处理机制,有效避免误报和漏报。

        一步定位到发生故障的源头设备,基于混合算法,快速检索异常问题关联涉及的各项维度与影响范围,快速定位问题边界。及时进行排障处置,支持以拓扑图的方式回放历史告警下的设备告警变化、拓扑图和链路告警变化,支持快进、后退等播放操作,有效地预防更加严重的故障发生。

第4章 可视化场景编排,提升复杂故障处置能力

        方案具备拖拽式场景编排能力,可以灵活地定制运维场景,自动执行编排流程。整体运维操作过程和执行结果均以可视化的方式进行呈现。不限制作业流程及流程内节点配置数量,全面满足不同运维需求,同时支持高性能的多条编排流程并发执行,加快排障处置效率。

        平台内置多种原子运维命令,满足用户日常基本运维需求,同时支持用户配置专属策略,通过对原子策略的组合复用,实现针对不同运维场景的策略模板,满足不同设备在不同运维场景下的特有需求。

        通过可视化编排以拖拽的方式快速简单地完成作业流程的配置,将复杂的运维工作和任务转变为一致的,可复用的、可度量和有效的工作流,实现自动化运维。

        智和信通故障自愈方案通过“监控+运维+控制”相结合的方式,将日常所需的各类故障排查、处置工作以策略模板的形式提供给用户,确保每个操作安全高效,全面提升告警排障效率。

这篇关于通过自动化运维实现无人值守的故障自愈的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/897776

相关文章

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库

linux下shell脚本启动jar包实现过程

《linux下shell脚本启动jar包实现过程》确保APP_NAME和LOG_FILE位于目录内,首次启动前需手动创建log文件夹,否则报错,此为个人经验,供参考,欢迎支持脚本之家... 目录linux下shell脚本启动jar包样例1样例2总结linux下shell脚本启动jar包样例1#!/bin

go动态限制并发数量的实现示例

《go动态限制并发数量的实现示例》本文主要介绍了Go并发控制方法,通过带缓冲通道和第三方库实现并发数量限制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录带有缓冲大小的通道使用第三方库其他控制并发的方法因为go从语言层面支持并发,所以面试百分百会问到