Ceph入门到精通-Ceph Pacific 版本磁盘预测模块

2023-12-16 17:12

本文主要是介绍Ceph入门到精通-Ceph Pacific 版本磁盘预测模块,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

磁盘预测模块利用 Ceph 设备运行状况检查来收集磁盘运行状况指标,并使用内部预测器模块生成磁盘故障预测并返回到 Ceph。它不需要任何外部服务器进行数据分析和输出结果。其内部预测器的准确率约为70%。

1. 启用

运行以下命令以在 Ceph 环境中启用diskprediction_local模块:

ceph mgr module enable diskprediction_local

要启用本地预测变量,请执行以下操作:

ceph config set mgr device_failure_prediction_mode local

要禁用预测,请执行以下操作:

ceph config set mgr device_failure_prediction_mode none

diskprediction_local需要至少六个设备运行状况指标数据集来预测设备的使用寿命。并且,仅当启用了运行状况监视时,才会收集这些运行状况指标。

运行以下命令以检索给定设备的预期寿命。

ceph device predict-life-expectancy <device id>

2. 配置

默认情况下,该模块每天执行预测。您可以使用以下命令调整此间隔:

ceph config set mgr mgr/diskprediction_local/predict_interval <interval-in-seconds>

~# ceph config get mgr mgr/diskprediction_local/predict_interval
86400  # 默认1天

3. 调试

如果要调试磁盘预测模块映射到 Ceph 日志记录级别,请使用以下命令。

[mgr]

    debug mgr = 20

将日志记录设置为管理器的调试后,模块将打印出带有前缀 mgr[diskprediction] 的日志记录消息,以便于过滤。

4. 启用设备监控

Ceph 还可以监控与您的设备关联的运行状况指标。例如,SATA 硬盘实现一种称为 SMART 的标准,该标准提供有关设备使用情况和运行状况的各种内部指标,例如开机小时数、电源周期数或不可恢复的读取错误。其他设备类型(如 SAS 和 NVMe)实现了一组类似的指标(通过略有不同的标准)。所有这些都可以由 Ceph 通过 smartctl 工具收集。

您可以使用以下方法启用或禁用运行状况监控:

ceph device monitoring on

或者:

ceph device monitoring off

4.1 指标抓取

如果启用了监控,将定期自动抓取指标。该间隔可以配置为:

ceph config set mgr mgr/devicehealth/scrape_frequency <seconds>

默认设置是每 24 小时抓取一次。

您可以使用以下方法手动触发所有设备的抓取:

ceph device scrape-health-metrics

可以使用以下方法抓取单个设备:

ceph device scrape-health-metrics <device-id>

或者可以使用以下方法抓取单个守护程序的设备:

ceph device scrape-daemon-health-metrics <who>

可以使用以下命令检索设备存储的运行状况指标(可选择特定时间戳):

ceph device get-health-metrics <devid> [sample-timestamp]

4.2 故障预测

Ceph 可以根据收集的健康指标预测预期寿命和设备故障。有2种模式:

  none:禁用设备故障预测。
  local:使用来自 Ceph-MGR 守护程序的预训练预测模型

预测模式可以配置为:

ceph config set mgr device_failure_prediction_mode <mode>

预测通常在后台定期运行,因此可能需要一些时间才能填充预期寿命值。您可以在以下输出中查看所有设备的预期寿命:

ceph device ls

您还可以使用以下方法查询特定设备的元数据:

ceph device info <devid>

您可以使用以下方法显式强制预测设备的预期寿命:

ceph device predict-life-expectancy <devid>

如果您没有使用 Ceph 的内部设备故障预测,但有一些关于设备故障的外部信息源,则可以通过以下方式通知 Ceph 设备的预期寿命:

ceph device set-life-expectancy <devid> <from> [<to>]

预期寿命表示为时间间隔,因此不确定性可以用宽间隔的形式表示。间隔结束也可以不指定。

4.3 健康警报

mgr/devicehealth/warn_threshold 控制在生成运行状况警告之前,预期设备故障必须多久发生。

~# ceph config get mgr mgr/devicehealth/warn_threshold
7257600  # 默认84天

可以通过以下方式检查所有设备的预期寿命,并生成任何适当的运行状况警报:

ceph device check-health

4.4 自动故障隔离

如果启用了 mgr/devicehealth/self_heal 选项(默认情况下),则对于预计很快会发生故障的设备,模块将通过将设备标记为“out”来自动将数据从它们中迁移出去。

mgr/devicehealth/mark_out_threshold 控制在自动将 osd 标记为“out”之前,预期设备故障必须多久发生。

默认:

~# ceph config get mgr mgr/devicehealth/self_heal
true
~# ceph config get mgr mgr/devicehealth/mark_out_threshold
2419200  # 默认28天

禁用自动隔离:

ceph config set mgr mgr/devicehealth/self_heal false

https://www.cnblogs.com/varden/p/17347121.html?share_token=4cca94e8-fc6e-4701-9335-4da80a83f09a

这篇关于Ceph入门到精通-Ceph Pacific 版本磁盘预测模块的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/501240

相关文章

MySQL DQL从入门到精通

《MySQLDQL从入门到精通》通过DQL,我们可以从数据库中检索出所需的数据,进行各种复杂的数据分析和处理,本文将深入探讨MySQLDQL的各个方面,帮助你全面掌握这一重要技能,感兴趣的朋友跟随小... 目录一、DQL 基础:SELECT 语句入门二、数据过滤:WHERE 子句的使用三、结果排序:ORDE

一文深入详解Python的secrets模块

《一文深入详解Python的secrets模块》在构建涉及用户身份认证、权限管理、加密通信等系统时,开发者最不能忽视的一个问题就是“安全性”,Python在3.6版本中引入了专门面向安全用途的secr... 目录引言一、背景与动机:为什么需要 secrets 模块?二、secrets 模块的核心功能1. 基

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地

conda安装GPU版pytorch默认却是cpu版本

《conda安装GPU版pytorch默认却是cpu版本》本文主要介绍了遇到Conda安装PyTorchGPU版本却默认安装CPU的问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的... 目录一、问题描述二、网上解决方案罗列【此节为反面方案罗列!!!】三、发现的根本原因[独家]3.1 p

Python中OpenCV与Matplotlib的图像操作入门指南

《Python中OpenCV与Matplotlib的图像操作入门指南》:本文主要介绍Python中OpenCV与Matplotlib的图像操作指南,本文通过实例代码给大家介绍的非常详细,对大家的学... 目录一、环境准备二、图像的基本操作1. 图像读取、显示与保存 使用OpenCV操作2. 像素级操作3.

Redis指南及6.2.x版本安装过程

《Redis指南及6.2.x版本安装过程》Redis是完全开源免费的,遵守BSD协议,是一个高性能(NOSQL)的key-value数据库,Redis是一个开源的使用ANSIC语言编写、支持网络、... 目录概述Redis特点Redis应用场景缓存缓存分布式会话分布式锁社交网络最新列表Redis各版本介绍旧

IIS 7.0 及更高版本中的 FTP 状态代码

《IIS7.0及更高版本中的FTP状态代码》本文介绍IIS7.0中的FTP状态代码,方便大家在使用iis中发现ftp的问题... 简介尝试使用 FTP 访问运行 Internet Information Services (IIS) 7.0 或更高版本的服务器上的内容时,IIS 将返回指示响应状态的数字代

Linux给磁盘扩容(LVM方式)的方法实现

《Linux给磁盘扩容(LVM方式)的方法实现》本文主要介绍了Linux给磁盘扩容(LVM方式)的方法实现,涵盖PV/VG/LV概念及操作步骤,具有一定的参考价值,感兴趣的可以了解一下... 目录1 概念2 实战2.1 相关基础命令2.2 开始给LVM扩容2.3 总结最近测试性能,在本地打数据时,发现磁盘空

Python logging模块使用示例详解

《Pythonlogging模块使用示例详解》Python的logging模块是一个灵活且强大的日志记录工具,广泛应用于应用程序的调试、运行监控和问题排查,下面给大家介绍Pythonlogging模... 目录一、为什么使用 logging 模块?二、核心组件三、日志级别四、基本使用步骤五、快速配置(bas