Lustre架构介绍的阅读笔记-HSM

本文主要是介绍Lustre架构介绍的阅读笔记-HSM，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文是在阅读Introduction to Lustre* Architecture的Lustre HSM System Architecture时的笔记。

Hierarchical Storage Management (HSM) is a collection of technologies and processes designed to provide a cost-effective storage platform that balances performance, capacity and long term retention (archival).

HMS即Hierarchical Storage Management，数据的分级存储管理。

存储系统管理数据时，需要依据数据的特点即生命周期、访问热度、访问时延、吞吐量等，综合考虑系统性能、容量、保留策略，充分利用不同的存储设备的特点，自动迁移数据。

现有计算的存储设备，比如：

CPU内的寄存器，访问时延低、存储容量低、成本高。
CPU内的缓存，访问时延低、存储容量低、成本高。
计算机的主存，相比于比CPU内缓存，访问时延高，存储容量大，成本低。
存储盘
- SSD，即固态盘，相比于计算机的主存，访问时延接近，存储容量大，成本低一点。
- HDD，即机械硬盘，相比于SSD，访问时延高，存储容量大，成本低。
- CD/DVD，即光盘，相比于HDD，访问时延高，存储容量大，成本低，但只能写一次，反复多读次，一般只用于冷数据归档。
- 磁带库，相比于HDD，访问时延高，存储容量大，成本低，一般只用于冷数据归档。

设计存储系统时，可以依据业务场景以及预算，配置集群的规模，以及数据迁移的策略，充分利用预算，达成业务目标。

数据的分级策略的实现思路，使用不同的存储设备来存储不同访问热度的数据，平衡成本、性能、容量等几方面诉求，实现存储效率最大化。
数据的热度，划分为热、温、冷、冰，对应不同的存储层级。
依据常识，新创建的文件，一般认为是热数据；对于已存在的文件，新写入的数据，也认为是热数据。
受限于热数据存储的容量，在一段时间后，对于访问频率下降的数据，需要依据一定的策略，依次迁移至温存储、冷存储。
对于归档、备份的数据，在可预见的一段时间内，访问频率很低或者没有访问，此时可以迁移至冰存储中。
存储的单位成本，由高至低，依次为热、温、冷、冰。
存储的访问时延，由高至低，依次为热、温、冷、冰。
存储的容量，由小至大，依次为热、温、冷、冰。
分级的迁移操作，可行的实现方案：

人工判断，手工操作。由业务管理员人工判定文件的热度，手动将满足要求的文件迁移至不同的存储层级。
人工判断，自动执行。由业务管理员人工判定文件的热度，给出迁移的判断条件，由存储系统自行执行迁移操作。依据POSIX规范，可用的判断条件，比如：
- 文件的时间，即crtime/ctime/mtime/atime。
- 文件的归属用户/用户组。
- 文件的目录。
- 文件名，前缀、后缀或者模糊匹配。
- 指定的文件清单。
存储系统判定，存储系统执行。由存储系统记录各文件的访问操作，依据一定规则计算文件的热度，按照一定周期，自动将文件迁移至不同的存储层级。

分级的迁移操作，可以实现为一次操作，以及周期性操作。对于周期性操作，考虑到任务执行的成本，需要实现对文件系统的增量扫描，降低对存储系统的影响。
迁移操作运行过程中的注意事项：