使用QUME搭建ZNS SSD

2023-10-15 12:52
文章标签 使用 搭建 ssd zns qume

本文主要是介绍使用QUME搭建ZNS SSD,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

安装QUME

QEMU从 1.6 版开始支持模拟 NVMe 命名空间。但是仅从QEMU 6.0 版本开始支持模拟分区命名空间。
下载QUME:https://www.qemu.org/download/#source

镜像下载

The user account and guest OS of the VM:

  • username: femu
  • passwd : femu
  • Guest OS: Ubuntu 20.04.1 server, with kernel 5.4
mkdir -p ~/images
wget http://people.cs.uchicago.edu/~huaicheng/femu/femu-vm.tar.xz
tar xJvf femu-vm.tar.xz

这些步骤做完以后,在当前文件夹下面将会得到两个文件: "u20s.qcow2 " 和 "u20s.md5sum "
可以通过下面的语句验证 VM 镜像的完整性

md5sum u20s.qcow2 > tmp.md5sum
diff tmp.md5sum u20s.md5sum

如果diff显示两个文件不同,则表示 VM 镜像已损坏,需要重做上述步骤。

建立host与guest之间的共享目录

qemu 启动参数需要添加 :

-fsdev local,security_model=passthrough,id=fsdev0,path=/tmp/share \
-device virtio-9p-pci,id=fs0,fsdev=fsdev0,mount_tag=hostshare

其中 path 为 host 本地的共享目录
在 guest 中挂载 host 共享的目录

mkdir /tmp/host_files
sudo mount -t 9p -o trans=virtio,version=9p2000.L hostshare /tmp/host_files

参考https://blog.csdn.net/gatieme/article/details/82912921

切换linux5.10内核

1.将提前下载好的 linux-5.10 上传至主机
2.通过share将5.10版本的内核压缩包从主机传到 QUME里
3.解压缩

cd /usr/src/
sudo tar -zxvpf linux-5.10.tar.gz

4.编译内核(可以在host侧编译)

cd linux-5.10/ 
sudo apt-get install ncurses-dev
sudo apt-get install flex
sudo apt-get install bison -y

配置内核选项

sudo make menuconfig

具体参考https://zonedstorage.io/docs/linux/config

sudo apt-get install libssl-dev
sudo make -j32

5.安装

sudo make modules_install
sudo make install
sudo poweroff

创建模拟分区命名空间

要创建模拟的分区命名空间,您必须首先拥有该命名空间可以使用的后备存储文件。文件的大小决定了从运行在QEMU虚拟机中的guest OS看到的命名空间的容量。
例如:创建32GiB分区的命名空间,必须先在主机上创建32GiB文件。这可以通过使用truncate命令创建一个稀疏文件,或者使用dd命令创建一个完全分配的文件来实现。
使用truncate创建仿真区域命名空间Backstore

# truncate -s 32G /var/lib/qemu/images/zns.raw# ls -l /var/lib/qemu/images/zns.raw
-rw-r--r-- 1 root root 34359738368 Jun 21 15:13 /var/lib/qemu/images/zns.raw

使用dd创建仿真区域命名空间Backstore

# dd if=/dev/zero of=/var/lib/qemu/images/zns.raw bs=1M count=32768
32768+0 records in
32768+0 records out
34359738368 bytes (34 GB, 32 GiB) copied, 11.4072 s, 3.0 GB/s# ls -l /var/lib/qemu/images/zns.raw
-rw-r--r-- 1 root root 34359738368 Jun 22 11:22 /var/lib/qemu/images/zns.raw

创建ZNS并使用Backstore文件

使用命令行选项和参数执行QEMU,以创建一个分区的名称空间,该名称空间使用后台存储文件作为存储。
QEMU中NVMe设备仿真和ZNS命名空间仿真的实现提供了几个配置选项来控制设备的特征。与“分区名称空间”相关的选项和参数如下。

OptionDefault ValueDescription
zoned.zasl=UINT320Zone Append Size Limit. If left at the default (0), the zone append size limit will be equal to the maximum data transfer size (MDTS). Otherwise, the zone append size limit is equal to 2 to the power of zasl multiplied by the minimum memory page size (4096 B), but cannot exceed the maximum data transfer size.
zoned.zone_size=SIZE128MiBDefine the zone size (ZSZE)
zoned.zone_capacity=SIZE0Define the zone capacity (ZCAP). If left at the default (0), the zone capacity will equal the zone size.
zoned.descr_ext_size=UINT320Set the Zone Descriptor Extension Size (ZDES). Must be a multiple of 64 bytes.
zoned.cross_read=BOOLoffSet to “on” to allow reads to cross zone boundaries.
zoned.max_active=UINT320Set the maximum number of active resources (MAR). The default (0) allows all zones to be active.
zoned.max_open=UINT320Set the maximum number of open resources (MOR). The default (0) allows all zones to be open. If zoned.max_active is specified, this value must be less than or equal to that

在下面的例子中,backstore文件被用来模拟一个分区的命名空间,分区的大小为64个MiB,分区的容量为62个MiB。命名空间块大小为4096b。命名空间最多允许16个开放的zone和32个活跃的zone。

#!/bin/bash
# Huaicheng Li <huaicheng@cs.uchicago.edu>
# Run FEMU as a black-box SSD (FTL managed by the device)# image directory
IMGDIR=/home/qwj/ZNS/images
# Virtual machine disk image
OSIMGF=$IMGDIR/u20s.qcow2
ZNSIMGF=$IMGDIR/zns.raw
if [[ ! -e "$OSIMGF" ]]; thenecho ""echo "VM disk image couldn't be found ..."echo "Please prepare a usable VM image and place it as $OSIMGF"echo "Once VM disk image is ready, please rerun this script again"echo ""exit
fisudo /home/qwj/ZNS/qemu-7.0.0/bin/debug/native/x86_64-softmmu/qemu-system-x86_64 \-name "FEMU-BBSSD-VM" \-enable-kvm \-cpu host \-smp 4 \-m 32G \-fsdev local,security_model=passthrough,id=fsdev0,path=/home/qwj/ZNS/share \-device virtio-9p-pci,id=fs0,fsdev=fsdev0,mount_tag=hostshare \-device virtio-scsi-pci,id=scsi0 \-device scsi-hd,drive=hd0 \-drive file=$OSIMGF,if=none,aio=native,cache=none,format=qcow2,id=hd0 \-device nvme,id=nvme0,serial=deadbeef,zoned.zasl=5 \-drive file=$ZNSIMGF,id=nvmezns0,format=raw,if=none \-device nvme-ns,drive=nvmezns0,bus=nvme0,nsid=1,logical_block_size=4096,physical_block_size=4096,zoned=true,zoned.zone_size=64M,zoned.zone_capacity=62M,zoned.max_open=16,zoned.max_active=32,uuid=5e40ec5f-eeb6-4317-bc5e-c919796a5f79 \-net user,hostfwd=tcp::8081-:22 \-net nic,model=virtio \-nographic \-qmp unix:./qmp-sock,server,nowait 2>&1 | tee log

一般不在该界面直接使用 VM,所以保持该界面不动,另开一个窗口使用 ssh 登陆

usernamexxx@hostnamexxx:~$ ssh -p8081 femu@localhost
# femu 的密码:femu

验证模拟分区命名空间

# sudo nvme list
Node             SN                   Model                                    Namespace Usage                      Format           FW Rev
---------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1     deadbeef             QEMU NVMe Ctrl                           1          34.36  GB /  34.36  GB      4 KiB +  0 B   1.

ZNS SSD搭建之rocksdb和zenfs

https://github.com/westerndigitalcorporation/zenfs
1.Download, build and install libzbd. See the libzbd READMEfor instructions.
2.Download rocksdb and the zenfs projects:

$ git clone https://github.com/facebook/rocksdb.git
$ cd rocksdb
$ git clone https://github.com/westerndigitalcorporation/zenfs plugin/zenfs

3.Build and install rocksdb with zenfs enabled:
安装前先安装sudo apt-get install libgflags-dev
https://github.com/westerndigitalcorporation/zenfs/issues/3
https://www.jianshu.com/p/4a79b95bca9a
https://blog.csdn.net/qq_41108558/article/details/118513202
启用调试log:ROCKSDB_PLUGINS=zenfs make -j4 db_bench dbg
https://github.com/westerndigitalcorporation/zenfs/issues/240
I mastered the latest version, I found that, > 1. users can change the destination for logs in #define DEFAULT_ZENV_LOG_PATH "/tmp/ > 2

$ DEBUG_LEVEL=0 ROCKSDB_PLUGINS=zenfs make -j4 db_bench install

4.Build the zenfs utility:

$ pushd
$ cd plugin/zenfs/util
$ make
$ popd

5.Configure the IO Scheduler for the zoned block device
The IO scheduler must be set to deadline to avoid writes from being reordered. This must be done every time the zoned name space is enumerated (e.g at boot).

echo deadline > /sys/class/block/<zoned block device>/queue/scheduler

6.Creating a ZenFS file system

cd ./rocksdb/plugin/zenfs/
mkdir log
sudo ./util/zenfs mkfs --zbd=nvme0n1 --aux-path=./log --force

7.Testing with db_bench
To instruct db_bench to use zenfs on a specific zoned block device, the --fs_uri parameter is used. The device name may be used by specifying --fs_uri=zenfs://dev: or by specifying a unique identifier for the created file system by specifying --fs_uri=zenfs://uuid:. UUIDs can be listed using ./plugin/zenfs/util/zenfs ls-uuid

sudo ./db_bench --fs_uri=zenfs://dev:nvme0n1 --benchmarks=fillrandom --use_direct_io_for_flush_and_compaction

ZNS SSD搭建之挂载F2FS(双硬盘)

1.创建传统SSD

由于f2fs 使用具有固定块位置的磁盘元数据块格式,因此仅支持包含常规区域的分区块设备。完全由顺序区域组成的分区设备不能与f2fs 一起用作独立设备,并且它们需要多设备设置才能将元数据块放置在随机可写存储上。f2fs支持多设备设置,其中多个块设备地址空间线性连接以形成逻辑上更大的块设备。
使用以下原理实现了F2FS 分区块设备支持:
1 Section Alignment 在f2fs中,section是一组固定大小的segment(2mb)。通过指定一个section中的segment数,来匹配分区设备zone大小。例如:zone大小为256mb,一个section包含128个2MB的段。
2 Forced LFS mode 默认情况下,f2fs通过允许段内的一些随机写操作来优化块分配(以避免过多的追加写操作)。LFS模式强制对段进行顺序写操作,并强制在段内顺序使用段,这导致完全符合分区的块设备的写约束。
3 Zone reset as discard operation 在过去,块discard(或trim)向设备表明一个块或一组块不再使用。当一个section的所有段的所有块都空闲时,就会执行“zone write pointer reset”命令。这允许重用该section。
与使用dm分区的设备映射器目标的解决方案相比,分区设备上的f2fs的性能不会受到“区域回收开销”的影响,因为写操作总是顺序的,并且不需要磁盘上的临时缓冲区。F2fs垃圾收集(段清理)只对频繁删除文件或修改文件数据的工作负载产生开销。
Zone Capacity Support
NVMe ZNS ssd的每个zone容量可以小于zone的大小。为了支持ZNS设备,f2fs确保块分配和计费只考虑一个区域内在该区域容量内的块。这种对NVMe ZNS区域容量的支持自从在Linux内核版本5.10中引入以来就一直可用。
F2fs卷需要一些随机可写的存储空间,以便存储和更新卷的元数据块。由于NVMe分区的名称空间没有conventional zones,所以不能在单个NVMe分区的名称空间中自包含f2fs卷。要使用NVMe分区的命名空间格式化f2fs卷,必须使用多设备卷格式,以便提供额外的常规块设备来存储卷元数据块。这个额外的常规块设备可以是同一个NVMe设备上的常规名称空间,也可以是另一个NVMe设备上的常规名称空间。
f2fs使用32位的块号,块大小为4 KB。这导致卷的最大大小为16 TB。任何设备或设备组合(对于多设备卷)总容量大于16tb的设备不能与f2fs一起使用。
为了克服这个限制,可以使用dm-linear设备映射器目标将分区的块设备划分为可用的、更小的逻辑设备。此配置必须确保为创建的每个逻辑设备分配足够数量的常规区域来存储f2fs固定位置元数据块。
在QUME的运行命令中加入传统NVMe SSD:


#!/bin/bash
# Huaicheng Li <huaicheng@cs.uchicago.edu>
# Run FEMU as a black-box SSD (FTL managed by the device)# image directory
IMGDIR=/home/qwj/ZNS/images
# Virtual machine disk image
OSIMGF=$IMGDIR/u20s.qcow2
ZNSIMGF=$IMGDIR/zns.raw
CONVIMGF=$IMGDIR/convSSD.raw
if [[ ! -e "$OSIMGF" ]]; thenecho ""echo "VM disk image couldn't be found ..."echo "Please prepare a usable VM image and place it as $OSIMGF"echo "Once VM disk image is ready, please rerun this script again"echo ""exit
fisudo /home/qwj/ZNS/qemu-7.0.0/bin/debug/native/x86_64-softmmu/qemu-system-x86_64 \-name "FEMU-BBSSD-VM" \-enable-kvm \-cpu host \-smp 4 \-m 32G \-fsdev local,security_model=passthrough,id=fsdev0,path=/home/qwj/ZNS/share \-device virtio-9p-pci,id=fs0,fsdev=fsdev0,mount_tag=hostshare \-device virtio-scsi-pci,id=scsi0 \-device scsi-hd,drive=hd0 \-drive file=$OSIMGF,if=none,aio=native,cache=none,format=qcow2,id=hd0 \-device nvme,id=nvme0,serial=deadbeef,zoned.zasl=5 \-drive file=$ZNSIMGF,id=nvmezns0,format=raw,if=none \-device nvme-ns,drive=nvmezns0,bus=nvme0,nsid=1,logical_block_size=4096,physical_block_size=4096,zoned=true,zoned.zone_size=64M,zoned.zone_capacity=62M,zoned.max_open=16,zoned.max_active=32,uuid=5e40ec5f-eeb6-4317-bc5e-c919796a5f79 \-drive file=$CONVIMGF,if=none,id=nvmeconv0,format=raw,if=none \-device nvme-ns,drive=nvmeconv0,logical_block_size=4096,physical_block_size=4096 \-net user,hostfwd=tcp::8081-:22 \-net nic,model=virtio \-nographic \-qmp unix:./qmp-sock,server,nowait 2>&1 | tee log

2.安装f2fs-tools-1.14.0

旧版本的f2fs-tools可能不支持双硬盘挂载F2FS,因此需要下载安装1.14.0及以上的工具
https://git.kernel.org/pub/scm/linux/kernel/git/jaegeuk/f2fs-tools.git
https://git.kernel.org/pub/scm/linux/kernel/git/jaegeuk/f2fs-tools.git/about/
https://f2fs.wiki.kernel.org/

3.挂载F2FS

与SMR硬盘不同,内核在默认情况下不会为代表NVMe分区名称空间的块设备选择mq-deadline块- io调度器。为了确保f2fs使用的常规写操作按顺序交付给设备,必须将NVMe分区的名称空间块设备的IO调配器设置为mq-deadline。这是通过以下命令完成的

echo mq-deadline > /sys/block/nvme1n1/queue/scheduler

在上面的命令中,/dev/nvme1n1是分区名称空间的块设备文件,将用于f2fs卷。使用这个名称空间,可以使用mkfs.f2fs的-c选项格式化使用额外常规块设备(以下示例中的/dev/nvme0n1)的多设备f2fs卷,如下面的示例所示

cd ~/f2fs-tools-1.14.0/mkfs
sudo ./mkfs.f2fs -f -m -c /dev/nvme1n1 /dev/nvme0n1F2FS-tools: mkfs.f2fs Ver: 1.14.0 (2021-06-23)Info: Disable heap-based policy
Info: Debug level = 0
Info: Trim is enabled
Info: Host-managed zoned block device:2048 zones, 0 randomly writeable zones524288 blocks per zone
Info: Segments per section = 1024
Info: Sections per zone = 1
Info: sector size = 4096
Info: total sectors = 1107296256 (4325376 MB)
Info: zone aligned segment0 blkaddr: 524288
Info: format version with"Linux version 5.13.0-rc6+ (user1@brahmaputra) (gcc (Ubuntu 10.3.0-1ubuntu1) 10.3.0, GNU ld (GNU Binutils for Ubuntu) 2.36.1) #2 SMP Fri Jun 18 16:45:29 IST 2021"
Info: [/dev/nvme0n1] Discarding device
Info: This device doesn't support BLKSECDISCARD
Info: This device doesn't support BLKDISCARD
Info: [/dev/nvme1n1] Discarding device
Info: Discarded 4194304 MB
Info: Overprovision ratio = 3.090%
Info: Overprovision segments = 74918 (GC reserved = 40216)
Info: format successful

要挂载使用上述命令格式化的卷,必须指定常规块设备:

# mount -t f2fs /dev/nvme0n1 /mnt/f2fs/

可能出现的问题

0.最好设置内存大于8G,我设的32GB,不然编译rocksdb可能会崩溃
需提前安装sudo apt-get install libgflags-dev
1.服务器无法git clone
使用linux的PC git clone后,通过U盘复制到服务器。然后你可能需要:
sudo chmod -R +x rocksdb/
sudo git config --global --add safe.directory /home/femu/rocksdb/plugin/zenfs
2.需要提前安装libzbd
https://github.com/westerndigitalcorporation/libzbd
其中需要先安装autoconf autoconf-archive automake libtool m4
3.对zenfs运行make时可能报错,原因是没有安装sudo apt-get install libgflags-dev
https://github.com/westerndigitalcorporation/zenfs/issues/3
在makefile中修改这一行,链接libgflags:
$(TARGET): $(TARGET).cc
$(CXX) $(CXXFLAGS) -g -o $(TARGET) $< $(LIBS) -lgflags $(LDFLAGS)
修改调度算法:echo deadline > /sys/class/block/nvme0n1/queue/scheduler
格式化文件系统:sudo ./plugin/zenfs/util/zenfs mkfs --zbd=nvme0n1 --aux-path=./plugin/zenfs/log

这篇关于使用QUME搭建ZNS SSD的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/217850

相关文章

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

使用IDEA部署Docker应用指南分享

《使用IDEA部署Docker应用指南分享》本文介绍了使用IDEA部署Docker应用的四步流程:创建Dockerfile、配置IDEADocker连接、设置运行调试环境、构建运行镜像,并强调需准备本... 目录一、创建 dockerfile 配置文件二、配置 IDEA 的 Docker 连接三、配置 Do

Android Paging 分页加载库使用实践

《AndroidPaging分页加载库使用实践》AndroidPaging库是Jetpack组件的一部分,它提供了一套完整的解决方案来处理大型数据集的分页加载,本文将深入探讨Paging库... 目录前言一、Paging 库概述二、Paging 3 核心组件1. PagingSource2. Pager3.

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

Python极速搭建局域网文件共享服务器完整指南

《Python极速搭建局域网文件共享服务器完整指南》在办公室或家庭局域网中快速共享文件时,许多人会选择第三方工具或云存储服务,但这些方案往往存在隐私泄露风险或需要复杂配置,下面我们就来看看如何使用Py... 目录一、android基础版:HTTP文件共享的魔法命令1. 一行代码启动HTTP服务器2. 关键参

C++11右值引用与Lambda表达式的使用

《C++11右值引用与Lambda表达式的使用》C++11引入右值引用,实现移动语义提升性能,支持资源转移与完美转发;同时引入Lambda表达式,简化匿名函数定义,通过捕获列表和参数列表灵活处理变量... 目录C++11新特性右值引用和移动语义左值 / 右值常见的左值和右值移动语义移动构造函数移动复制运算符

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

C#中lock关键字的使用小结

《C#中lock关键字的使用小结》在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时,其他线程无法访问同一实例的该代码块,下面就来介绍一下lock关键字的使用... 目录使用方式工作原理注意事项示例代码为什么不能lock值类型在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时