服务器数据恢复—多块磁盘离线导致阵列瘫痪,上层lun不可用的数据恢复案例

本文主要是介绍服务器数据恢复—多块磁盘离线导致阵列瘫痪,上层lun不可用的数据恢复案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

服务器存储数据恢复环境:
某品牌MSA2000存储,该存储中有一组由8块SAS硬盘(其中有一块热备盘)组建的RAID5阵列,raid5阵列上层划分了6个lun,均分配给HP-Unix小型机使用,主要数据为oracle数据库和OA服务端。

服务器存储故障:
该MSA2000存储RAID5阵列中2块硬盘出现故障离线,阵列中只有一块热备盘,虽然热备盘成功激活,RAID5阵列瘫痪,上层LUN无法使用,存储不可用。

服务器存储数据恢复过程:
1、收到故障存储中所有磁盘后,由硬件工程师对所有磁盘做物理故障检测,没有发现有硬盘存在明显物理故障,都可以正常读取。使用坏道检测工具检测所有磁盘,也没有发现有硬盘存在坏道。
2、将所有磁盘以只读方式做扇区级全盘镜像。镜像完成后将所有磁盘还给用户方,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。

注:由于所有磁盘没有检测出存在明显的物理故障或者坏道,所以可以判断出磁盘离线的原因是读写性能不稳定。因为MSA2000存储中的raid控制器的磁盘检查策略非常严格,一旦阵列中有磁盘性能不稳定,控制器就将这些磁盘识别为坏盘并踢出RAID。一旦RAID中掉线的盘到超过该RAID级别所允许掉盘的最大数量,该RAID崩溃,上层基于RAID的LUN也将不可用。
3、MSA2000存储的LUN都是基于RAID的。分析所有磁盘中数据,发现其中一块盘的数据同其它盘不一样,可以初步判断这块盘是热备盘盘。分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,初步判断此硬盘是先掉线的那块磁盘。通过RAID校验程序对这个条带做校验,最终确定先掉线的那块硬盘。分析Oracle数据库页在每个磁盘中的分布情况,并根据数据分布的情况获取RAID的条带大小,磁盘顺序及数据走向等RAID的重要信息。根据分析出的RAID信息虚拟重组原始RAID。
4、分析LUN在RAID中的分配情况,以及LUN分配的数据块MAP。将每一个LUN的数据块分布MAP提取出来,北亚企安数据恢复工程师编写程序解析所有LUN的数据MAP,然后根据数据MAP导出所有LUN的数据。

5、分析所有导出的LUN,发现所有LUN中均包含HP-Unix的LVM信息。尝试解析每个LUN中的LVM信息,一共发现三个LVM:一个LVM中划分了一个LV,里面存放OA服务器端的数据;一个LVM中划分了一个LV,里面存放临时备份数据;剩余4个LUN组成一个LVM,只划分了一个LV,里面存放Oracle数据库文件。北亚企安数据恢复工程师编写LVM解释程序,尝试将所有LVM中的LV都解释出来,但发现解释过程中程序出错。
6、分析程序报错原因,开发工程师debug程序出错的位置。文件系统工程师对恢复出来的LUN做检测后发现存储瘫痪导致LVM信息损坏。尝试人工修复损坏的区域并同步修改程序,重新解析LVM逻辑卷。
7、搭建HP-Unix环境,将解释出来的LV映射到HP-Unix并尝试Mount文件系统,结果Mount文件系统出错。尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,修复完成后仍然无法挂载文件系统。怀疑vxfs文件系统的部分元数据可能被破坏,需要手工修复。
8、仔细分析解析出来的LV,根据VXFS文件系统的底层结构校验此文件系统是否完整。经过分析发现VXFS文件系统果然存在问题,原来存储瘫痪的时候VXFS文件系统正在执行IO操作,导致部分文件系统元文件损坏。手工修复损坏的元文件,直到能够正常解析VXFS文件系统。再次将修复好的LV挂载到HP-Unix小型机上,尝试Mount文件系统,这回没有报错,成功挂载。
9、在HP-Unix小型机上mount文件系统后,将所有用户数据备份至指定磁盘空间。
部分文件目录截图:

10、使用Oracle数据库文件检测工具“dbv”检测每个数据库文件的完整性,经过检测没有发现问题。再使用北亚企安自主研发的Oracle数据库检测工具进行检测,发现部分数据库文件和日志文件校验不一致。由数据库工程师对此类文件进行修复后再次校验,直到所有数据库文件均通过校验为止。
11、将恢复出来的Oracle数据库附加到原始生产环境的HP-Unix小型机中,尝试启动Oracle数据库,Oracle数据库启动成功。

12、由用户方配合,启动Oracle数据库和OA服务端。通过本地安装的OA客户端数据记录进行验证,并且用户方安排不同部门人员进行远程验证。经过仔细验证,确定恢复出来的数据完整可用,认可本次数据恢复结果。本次数据恢复工作完成。

这篇关于服务器数据恢复—多块磁盘离线导致阵列瘫痪,上层lun不可用的数据恢复案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/948845

相关文章

MySQL MCP 服务器安装配置最佳实践

《MySQLMCP服务器安装配置最佳实践》本文介绍MySQLMCP服务器的安装配置方法,本文结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下... 目录mysql MCP 服务器安装配置指南简介功能特点安装方法数据库配置使用MCP Inspector进行调试开发指

在Windows上使用qemu安装ubuntu24.04服务器的详细指南

《在Windows上使用qemu安装ubuntu24.04服务器的详细指南》本文介绍了在Windows上使用QEMU安装Ubuntu24.04的全流程:安装QEMU、准备ISO镜像、创建虚拟磁盘、配置... 目录1. 安装QEMU环境2. 准备Ubuntu 24.04镜像3. 启动QEMU安装Ubuntu4

六个案例搞懂mysql间隙锁

《六个案例搞懂mysql间隙锁》MySQL中的间隙是指索引中两个索引键之间的空间,间隙锁用于防止范围查询期间的幻读,本文主要介绍了六个案例搞懂mysql间隙锁,具有一定的参考价值,感兴趣的可以了解一下... 目录概念解释间隙锁详解间隙锁触发条件间隙锁加锁规则案例演示案例一:唯一索引等值锁定存在的数据案例二:

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地

MySQL 表的内外连接案例详解

《MySQL表的内外连接案例详解》本文给大家介绍MySQL表的内外连接,结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录表的内外连接(重点)内连接外连接表的内外连接(重点)内连接内连接实际上就是利用where子句对两种表形成的笛卡儿积进行筛选,我

Windows Server 2025 搭建NPS-Radius服务器的步骤

《WindowsServer2025搭建NPS-Radius服务器的步骤》本文主要介绍了通过微软的NPS角色实现一个Radius服务器,身份验证和证书使用微软ADCS、ADDS,具有一定的参考价... 目录简介示意图什么是 802.1X?核心作用802.1X的组成角色工作流程简述802.1X常见应用802.

Java Stream.reduce()方法操作实际案例讲解

《JavaStream.reduce()方法操作实际案例讲解》reduce是JavaStreamAPI中的一个核心操作,用于将流中的元素组合起来产生单个结果,:本文主要介绍JavaStream.... 目录一、reduce的基本概念1. 什么是reduce操作2. reduce方法的三种形式二、reduce

Linux给磁盘扩容(LVM方式)的方法实现

《Linux给磁盘扩容(LVM方式)的方法实现》本文主要介绍了Linux给磁盘扩容(LVM方式)的方法实现,涵盖PV/VG/LV概念及操作步骤,具有一定的参考价值,感兴趣的可以了解一下... 目录1 概念2 实战2.1 相关基础命令2.2 开始给LVM扩容2.3 总结最近测试性能,在本地打数据时,发现磁盘空

Spring Boot 整合 Redis 实现数据缓存案例详解

《SpringBoot整合Redis实现数据缓存案例详解》Springboot缓存,默认使用的是ConcurrentMap的方式来实现的,然而我们在项目中并不会这么使用,本文介绍SpringB... 目录1.添加 Maven 依赖2.配置Redis属性3.创建 redisCacheManager4.使用Sp

springboot项目redis缓存异常实战案例详解(提供解决方案)

《springboot项目redis缓存异常实战案例详解(提供解决方案)》redis基本上是高并发场景上会用到的一个高性能的key-value数据库,属于nosql类型,一般用作于缓存,一般是结合数据... 目录缓存异常实践案例缓存穿透问题缓存击穿问题(其中也解决了穿透问题)完整代码缓存异常实践案例Red