服务案例|CIS数据库故障问题

2023-12-26 18:12

本文主要是介绍服务案例|CIS数据库故障问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、告警通知

12月20日凌晨,平台收到某三甲医院告警通知,显示核心业务CIS系统数据库tempdb实例日志文件剩余空间不足。

查看告警详情页,显示tempbd日志文件使用率在凌晨1:30后异常增高。

一个小tip

tempdb是SQL Server实例的系统数据库,同时也是实例中的一个临时共享资源。当服务器重启,Tempdb将被重建,所以Tempdb是没有办法像其他数据库一样永久保存数据的。也就是说,Tempdb是一个临时的数据库,是为实例中的各种请求处理中间数据的,任务处理完会自动释放,不会占用内存。

二、问题处理

MOC通知现场工程师,告知SQL server的tempdb实例日志文件异常增长,使用率已达99%,即将满,可能会导致临时表无法创建或数据事务无法提交,需要联系数据工程师处理。

由于是tempdb日志文件问题,未引起数据工程师足够重视,并未及时处理,告警问题一直持续。

问题持续到下午16:30分,临近工程师下班点,MOC工程师观察到数据库服务器C盘数据量与tempdb的日志文件大小同步增加,tempdb的日志文件从0增长到28.52G, 无独有偶,服务器C盘可用空间从45G下降至12G。Tempdb的日志文件大小仍在增加,按照增长趋势估算,将在夜间23-24点,CIS服务器的C盘空间会满,可能会导致CIS系统瘫痪。CIS系统是医院的核心系统,一旦发生宕机现象,将造成难以估量的损失。

简言之,同步增长的数据将导致C盘爆满,以此趋势看,不出意外将在夜间凌晨发生宕机事件。

MOC沟通用户工程师,建议在下班前处理不断增长的tempdb日志文件数据。不是夜间宕机解决不了,而是现在处理更有性价比。

数据工程师得知夜间C盘将爆满,可能引发宕机事件,马上进行处理,停止了SQL server正在进行的作业任务,将tempdb日志文件大小进行收缩,释放C盘空间,告警问题解决。

三、问题小结

tempdb是一个临时的数据库,为实例中的各种请求处理中间数据。一般在任务处理完成后会自动释放,所以平台告警通知数据工程师后,并未引起足够重视。LinkSLA在线工程师持续跟进问题,发现tempdp日志文件数据持续不断增长,导致操作系统磁盘空间不足,在平台趋势测算下,夜间将会引发CIS系统瘫痪。

所谓善战者,无赫赫之功,运维就是如此,不担大风险,积小胜为大胜。在细节处着手,于萌芽处扼杀,不因低级别事件就不重视,小问题拖延或聚集,也会造成系统性宕机的大事件。

系统正常运行,是所有硬件资源在系统指令下协作完成,做到全面数据监控,实时自动巡检,能够及时地发现问题,积极响应问题,主动御防,精准解除。

LinkSLA管家式运维服务

LinkSLA智能运维管家不仅仅是工具,还实质性地参与用户主动式预防的运维过程。

1、 7*24 在线值守

moc工程师实时在线监测平台告警信息,经过筛查和初步定位后生成工单通知用户工程师;工单处理闭环,既降低用户工程师的工作量,也过滤了无效告警和工单。

▲7*24在线,工单闭环

2、全栈监控

实现设备、系统软件、应用软件、安全日志的统一监控。

▲全栈监控

3、机器学习算法,实现精准告警。

区别于传统静态阈值的告警算法,机器学习算法经过历史数据训练,发现业务运行常态中的异常,大大提高告警准确性。

▲AI机器学习算法告警详情

4、实时巡检,精准探测系统实时状态。

这篇关于服务案例|CIS数据库故障问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/540372

相关文章

Vue3绑定props默认值问题

《Vue3绑定props默认值问题》使用Vue3的defineProps配合TypeScript的interface定义props类型,并通过withDefaults设置默认值,使组件能安全访问传入的... 目录前言步骤步骤1:使用 defineProps 定义 Props步骤2:设置默认值总结前言使用T

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

如何通过try-catch判断数据库唯一键字段是否重复

《如何通过try-catch判断数据库唯一键字段是否重复》在MyBatis+MySQL中,通过try-catch捕获唯一约束异常可避免重复数据查询,优点是减少数据库交互、提升并发安全,缺点是异常处理开... 目录1、原理2、怎么理解“异常走的是数据库错误路径,开销比普通逻辑分支稍高”?1. 普通逻辑分支 v

Python与MySQL实现数据库实时同步的详细步骤

《Python与MySQL实现数据库实时同步的详细步骤》在日常开发中,数据同步是一项常见的需求,本篇文章将使用Python和MySQL来实现数据库实时同步,我们将围绕数据变更捕获、数据处理和数据写入这... 目录前言摘要概述:数据同步方案1. 基本思路2. mysql Binlog 简介实现步骤与代码示例1

sysmain服务可以禁用吗? 电脑sysmain服务关闭后的影响与操作指南

《sysmain服务可以禁用吗?电脑sysmain服务关闭后的影响与操作指南》在Windows系统中,SysMain服务(原名Superfetch)作为一个旨在提升系统性能的关键组件,一直备受用户关... 在使用 Windows 系统时,有时候真有点像在「开盲盒」。全新安装系统后的「默认设置」,往往并不尽编

Web服务器-Nginx-高并发问题

《Web服务器-Nginx-高并发问题》Nginx通过事件驱动、I/O多路复用和异步非阻塞技术高效处理高并发,结合动静分离和限流策略,提升性能与稳定性... 目录前言一、架构1. 原生多进程架构2. 事件驱动模型3. IO多路复用4. 异步非阻塞 I/O5. Nginx高并发配置实战二、动静分离1. 职责2

解决升级JDK报错:module java.base does not“opens java.lang.reflect“to unnamed module问题

《解决升级JDK报错:modulejava.basedoesnot“opensjava.lang.reflect“tounnamedmodule问题》SpringBoot启动错误源于Jav... 目录问题描述原因分析解决方案总结问题描述启动sprintboot时报以下错误原因分析编程异js常是由Ja

Python 基于http.server模块实现简单http服务的代码举例

《Python基于http.server模块实现简单http服务的代码举例》Pythonhttp.server模块通过继承BaseHTTPRequestHandler处理HTTP请求,使用Threa... 目录测试环境代码实现相关介绍模块简介类及相关函数简介参考链接测试环境win11专业版python

使用shardingsphere实现mysql数据库分片方式

《使用shardingsphere实现mysql数据库分片方式》本文介绍如何使用ShardingSphere-JDBC在SpringBoot中实现MySQL水平分库,涵盖分片策略、路由算法及零侵入配置... 目录一、ShardingSphere 简介1.1 对比1.2 核心概念1.3 Sharding-Sp

Java 正则表达式的使用实战案例

《Java正则表达式的使用实战案例》本文详细介绍了Java正则表达式的使用方法,涵盖语法细节、核心类方法、高级特性及实战案例,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录一、正则表达式语法详解1. 基础字符匹配2. 字符类([]定义)3. 量词(控制匹配次数)4. 边