【我悟了】异常断电导致的文件系统变为只读——案例分析

2023-11-11 11:36

本文主要是介绍【我悟了】异常断电导致的文件系统变为只读——案例分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景

        应领导要求,临时支持其他项目上遇到的一个问题。由于该问题属于未涉及的知识领域,从接触到最终给出方案,也花了我不少精力。在此进行分享,主要介绍在面对不熟悉的问题领域时,分析问题的思路。希望能够给年轻的同学一点参考意义。

思路

问题现象

        OTA 下载流程中,手动断开电源,再次重启,会发现OTA 程序运行异常,其原因是OTA 写文件的目录,变成了read_only。

经验一:切记!切记!切记! 一定要先与先前直接负责同事进行充分沟通,尽可能的了解背景以及听取他分析思路。

通过与夏工交流,得到以下信息:

  1. 文件系统的挂载是由系统执行。我们并没有修改权限操作。

  2. 下载过程中,会涉及到频繁的文件读写,且这些文件是在该文件系统中。

经验二:善于关联,比较。与之前的项目经验进行对比。

针对客户的异常测试用例"OTA 下载流程中,手动异常断电",其实很常见。因为我们其他项目中,基本都会有类似的测试用例,但一直没有出现过该问题。所以我在思考两者有什么不同

经过查找咨询。发现一个明显区别:以往项目中,OTA操作的文件系统,基本都是ext4类型,而出现该问题的文件系统是fat32类型。

综上所述,目前我比较怀疑两个点:

  1. ext4 和fat32文件系统有什么差别?

  2. 程序中对文件的操作是否有不合规的地方?

分析

一. 走读代码

通过与同事沟通和走读代码,OTA 流程中文件操作的流程大致如下:

由上图所示:

tree.xml文件的作用是记录OTA 流程中各个阶段信息。比如任务信息,下载阶段各文件的信息等。

OTA 流程中会记录当前阶段,用于下次继续任务。因此会涉及到频繁写入数据。本方案中采用的是tmp文件方式。

  1. 先读取tree.xml信息,获取当前OTA 上下文。

  2. 根据OTA 进程,修改上下文。

  3. 写入tree_bak.xml,再通过rename 替换 当前 tree.xml

该方式的优点:可以避免写文件时异常,导致OTA上下文丢失。因为rename 仅会修改文件node 信息,不会再对文件数据修改

因此读写文件的操作也属于常规操作,并没有什么不妥

二. fat文件系统和ext4文件系统区别

在I/O性能优化——这一篇就足够啦-CSDN博客文章中,我们知道,linux 支持不同的文件系统,而文件系统的实质就是帮助用户如何有效的利用磁盘上的空间以及文件管理。不同的文件系统其文件管理方式以及磁盘分配方式不同。这里不再赘述两者的异同。

Fat文件系统曾是windows 中主流文件系统,它最大的优点就是兼容性。大部分操作系统都支持。

ext4是在ext3基础上优化而来,具备很多优点。

  • 支持在线检查和碎片整理。提高文件系统的可用性和性能

  • 支持文件系统级别的加密和压缩功能。更好的保护数据安全性和存储效率

  • 能够在异常情况下,更快的恢复文件系统。具有很好的可靠性。

      由于客户的使用场景,该磁盘块需要被android 操作系统 和 QNX 操作系统挂载使用。因此只能选择fat32文件系统,(QNX不支持ext4)。

三.文件系统的临界区

我们知道文件系统对文件的管理分为两个部分文件数据+文件元数据。前者用于保存文件的原始数据内容,后者用于记录文件存储扇区,权限,大小,文件名等信息。若两者信息对不上或损坏则会出现异常。

  因此在真正写磁盘时,就会出现一个临界区:如何保证文件数据和文件元数据的完整性和统一性。比如:

当执行上述红色代码时,出现异常终止,正在执行的对象可能会丢失(rename 的原理,只是修改两个文件的inode)。黄色代码时,出现异常终止,则有可能出现以下情况。

  • 正在改写的文件数据被损坏,f_write

  • 添加的文件恢复到初始状态,f_open,f_close

  • 丢失新建的文件,f_open

  • 新创建的文件或者覆写的内容丢失,f_open,f_mkdir,f_close

  • 由于丢失簇链,磁盘性能下降,f_unlink

注:若以只读方式打开文件,则不会出现上述情况

因此为了减少临界区,可以牺牲一些效率,减少临界区的大小。如下:

f_sync的功能是确保文件fd所有已修改的内容已经正确同步到硬盘上,该调用会阻塞等待直到设备报告IO完成。

综上所述,即使减少了临界区的大小,还是会存在文件系统错误的情况。

文件系统损坏的根本原因在于写文件不是原子操作,因为写文件涉及的不仅仅是用户数据,还涉及元数据,其中任何一个步骤被打断,就会造成数据的不一致或损坏。

四.日志文件系统

日志文件系统就是为了解决上述问题而应运而生。它的原理就是:在进行写操作之前,把即将进行的各个步骤记录下来,保存在文件系统上单独开辟的一块空间上,这就是所谓的日志。日志保存成功之后,在进行上述真正的写文件操作,把文件数据和文件元数据写入磁盘。异常断电就会存在两个场景。

  1. 在写日志时,异常断电,导致日志不完整。解决方式:丢弃本条日志,文件数据区不会影响。

  2. 在写文件时,异常断电,导致文件系统相关数据异常。解决方式:将之前保存的日志,再执行一遍即可。

而ext4具备日志文件系统属性,fat32并不具备。

解决方式

        根据以上分析,建议客户进行以下途径尝试。

更换文件系统

        更换文件系统,相对于我们是比较简单的。基本不会涉及到应用修改的成本。对于客户有些困难。因为该磁盘不仅要被android系统挂载使用,并且还被被QNX系统挂载使用。而QNX 仅支持FAT32和qnx6文件系统(可能是客户版本问题,若要支持ext4文件系统,需要加钱)---- 需要增加成本,并且底层估计还要适配

开启磁盘修复

        设备启动时,首先对fat32文件系统进行修复,再进行挂载。该方案整体成本应该是最少的,但是对于文件系统出错的类型,是否一定能修复完成,并不能保证。需要用大量测试进行验证。--- 修改成本最低,但是存在隐患,需要持续关注

断电保护

        客户提供断电保护机制。出现异常时,进行资源回收,文件系统正常卸载等操作。---- 最为保险,但是成本和开发能力要求较高。

总结

        综上所述,希望通过该案例对大家有所帮助。遇到不熟悉的问题域时,不要慌张,静下心来,抓住每一个细节,进行回想,分析,讨论。

参考文献

深入解析Ext2/3/4文件系统

FatFs模块系统应用指南_fatfs f_sync-CSDN博客

日志文件系统工作原理_日志文件系统原理-CSDN博客

这篇关于【我悟了】异常断电导致的文件系统变为只读——案例分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/389772

相关文章

javax.net.ssl.SSLHandshakeException:异常原因及解决方案

《javax.net.ssl.SSLHandshakeException:异常原因及解决方案》javax.net.ssl.SSLHandshakeException是一个SSL握手异常,通常在建立SS... 目录报错原因在程序中绕过服务器的安全验证注意点最后多说一句报错原因一般出现这种问题是因为目标服务器

Java对异常的认识与异常的处理小结

《Java对异常的认识与异常的处理小结》Java程序在运行时可能出现的错误或非正常情况称为异常,下面给大家介绍Java对异常的认识与异常的处理,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参... 目录一、认识异常与异常类型。二、异常的处理三、总结 一、认识异常与异常类型。(1)简单定义-什么是

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

六个案例搞懂mysql间隙锁

《六个案例搞懂mysql间隙锁》MySQL中的间隙是指索引中两个索引键之间的空间,间隙锁用于防止范围查询期间的幻读,本文主要介绍了六个案例搞懂mysql间隙锁,具有一定的参考价值,感兴趣的可以了解一下... 目录概念解释间隙锁详解间隙锁触发条件间隙锁加锁规则案例演示案例一:唯一索引等值锁定存在的数据案例二:

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

github打不开的问题分析及解决

《github打不开的问题分析及解决》:本文主要介绍github打不开的问题分析及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、找到github.com域名解析的ip地址二、找到github.global.ssl.fastly.net网址解析的ip地址三

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地

Mysql的主从同步/复制的原理分析

《Mysql的主从同步/复制的原理分析》:本文主要介绍Mysql的主从同步/复制的原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录为什么要主从同步?mysql主从同步架构有哪些?Mysql主从复制的原理/整体流程级联复制架构为什么好?Mysql主从复制注意

java -jar命令运行 jar包时运行外部依赖jar包的场景分析

《java-jar命令运行jar包时运行外部依赖jar包的场景分析》:本文主要介绍java-jar命令运行jar包时运行外部依赖jar包的场景分析,本文给大家介绍的非常详细,对大家的学习或工作... 目录Java -jar命令运行 jar包时如何运行外部依赖jar包场景:解决:方法一、启动参数添加: -Xb

MySQL 表的内外连接案例详解

《MySQL表的内外连接案例详解》本文给大家介绍MySQL表的内外连接,结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录表的内外连接(重点)内连接外连接表的内外连接(重点)内连接内连接实际上就是利用where子句对两种表形成的笛卡儿积进行筛选,我