GlusterFS 分布式文件系统 搭建及使用

2024-04-14 17:52

本文主要是介绍GlusterFS 分布式文件系统 搭建及使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、GlusterFS

GlusterFS 是一个开源的分布式文件系统,旨在提供高性能、可扩展性和可靠性,适用于现代数据中心和云环境。它以横向扩展的方式设计,可以在多台服务器之间共享文件系统,为应用程序提供统一的文件存储服务。

GlusterFS 的核心理念是将多台普通的服务器组合成一个高性能的分布式存储系统。它采用了分布式哈希表来管理数据存储和访问,通过将文件划分为小块并存储在不同服务器上,实现了数据的分布式存储和负载均衡。这种分布式存储模式不仅提高了存储容量和性能,还提高了系统的可靠性,因为数据的冗余备份可以在服务器故障时保证数据的可用性。

GlusterFS 提供了简单而灵活的管理接口,使得管理员可以轻松地管理存储集群并对其进行扩展。它支持多种存储协议,包括标准的网络文件系统(NFS)、Server Message BlockSMB)和本地 POSIX 文件系统,使得应用程序可以通过不同的协议访问存储集群。

由于其高性能、可扩展性和易用性,GlusterFS 在大规模的数据存储和处理场景中被广泛应用,包括云计算、大数据分析、内容交付网络(CDN)等领域。它是一个强大而灵活的分布式文件系统解决方案,可以帮助用户构建可靠的存储基础设施,满足不断增长的存储需求。

GlusterFS的总体架构如下:

在这里插入图片描述

GlusterFS 比较核心的是存储卷,支持 7 种卷类型,即 分布式卷、条带卷、复制卷、分布式条带卷、分布式复制卷、条带复制卷、分布式条带复制卷,每种卷的特点如下:

分布式卷(Distributed Volume):分布式卷根据hash算法将数据均匀地分布在不同服务器上,每个文件被分割成固定大小的块,然后分别存储在不同的服务器上。这种分布式存储方式可以提高存储容量和性能,因为数据可以并行地从多个服务器上读取和写入。适用于需要大容量和高性能存储的场景,如大规模数据存储、内容交付网络(CDN)等。缺点是文件没有冗余副本,一旦某台服务宕机,其中存储的数据无法读取。

复制卷(Replicated Volume):复制卷在多个服务器之间复制数据,以提高数据的可靠性和容错能力。每个文件会被复制到多个服务器上,当某个服务器发生故障时,数据仍然可用。但是需要注意的是,由于数据被复制,这会增加存储开销。适用于对数据可靠性要求较高的场景,如数据备份、关键业务应用等。

条带化卷(Striped Volume):条带化卷将文件分割成固定大小的块,并将这些块分别存储在不同的服务器上。这样可以提高读写性能,因为数据可以并行地从多个服务器上读取和写入。适用于需要高吞吐量和低延迟的场景,如大规模数据处理、科学计算等。

分布式复制卷(Distributed Replicated Volume):分布式复制卷结合了分布式卷和复制卷的特点,既实现了数据的横向扩展和负载均衡,又提高了数据的可靠性和容错能力。每个文件会被分割成固定大小的块,并复制到多个服务器上。适用于需要兼顾数据容量、性能和可靠性的场景,如大规模数据存储和分析、虚拟化环境等。

分布式条带化卷(Distributed Striped Volume):分布式条带化卷结合了分布式卷和条带化卷的特点,既实现了数据的横向扩展和负载均衡,又提高了读写性能。每个文件会被分割成固定大小的块,并分别存储在多个服务器上。适用于需要高性能和横向扩展的场景,如大规模并行计算、大数据处理等。

分布式复制条带化卷(Distributed Replicated Striped Volume):结合了分布式卷、复制卷和条带化卷的特点,既实现了数据的横向扩展、可靠性和读写性能。每个文件会被分割成固定大小的块,并复制到多个服务器上,然后分别存储在不同的服务器上。适用于需要高性能、高可靠性和横向扩展的场景,如大规模数据处理和存储、分布式文件系统等。

分布式条带化复制卷(Distributed Striped Replicated Volume):结合了分布式卷、条带化卷和复制卷的特点,既实现了数据的横向扩展、读写性能和可靠性。每个文件会被分割成固定大小的块,并分别存储在多个服务器上,然后在每个服务器上进行数据复制。适用于需要高性能、高可靠性和横向扩展的场景,如大规模并行计算、分布式存储系统等。

二、GlusterFS 搭建

部署规划:

ip别名用途
11.0.1.129node1glusterfs-server
11.0.1.130node2glusterfs-server
11.0.1.131node3glusterfs-server
11.0.1.132clientglusterfs-client

在四台机器上配置 hosts 增加映射:

vi /etc/hosts
11.0.1.129   node1
11.0.1.130   node2
11.0.1.131   node3

在这里插入图片描述

1. glusterfs-server 端部署

在三台服务端机器上安装 glusterfs-server :

yum install centos-release-gluster
yum install -y glusterfs glusterfs-server glusterfs-fuseglusterfs-rdma --skip-broken

启动 glusterFS

systemctl start glusterd.service

设置开机自启:

systemctl enable glusterd.service

查看启动状态:

systemctl status glusterd.service

在这里插入图片描述

状态为 running 为正常。

可以在任意一台中,将另两个节点加入集群,下面示例在 node1 节点上操作:

gluster peer probe node2
gluster peer probe node3

然后可以在任意一台中查看集群状态:

gluster peer status

在这里插入图片描述

如果在node2查看就是 node1node3 的信息:

在这里插入图片描述

查看 volume 状态:

gluster volume info

在这里插入图片描述

由于此时没有创建任何 volume ,所以查看为空。

创建分布式卷

在三台机器上分别创建文件存储目录:

mkdir -p /data/gluster/distributed

在其中一个节点下创建分布式卷。

gluster 默认情况下就是分布式卷,所以可以直接创建:

gluster volume create distributedVolume node1:/data/gluster/distributed node2:/data/gluster/distributed node3:/data/gluster/distributed force

其中:

  • distributedVolume 是卷的名称。
  • node1:/data/gluster、node2:/data/gluster 和 node3:/data/gluster 分别指定了每个节点上存储卷数据的路径。
  • force: 强制创建卷,即使存在相同名称的卷也会被覆盖。

在这里插入图片描述

启动该存储卷:

gluster volume start distributedVolume 

在这里插入图片描述

查看 volume 状态:

gluster volume info

在这里插入图片描述

创建复制卷

在三台机器上分别创建文件存储目录:

mkdir -p /data/gluster/replicated

创建复制卷,副本数为 3 ,也就是会在每个节点上存一份:

gluster volume create replicatedVolume replica 3 node1:/data/gluster/replicated node2:/data/gluster/replicated node3:/data/gluster/replicated force

其中:

  • replicatedVolume 是卷的名称。
  • replica 3:指定副本的数量。
  • node1:/data/gluster1、node2:/data/gluster1 和 node3:/data/gluster1 分别指定了每个节点上存储卷数据的路径。
  • force: 强制创建卷,即使存在相同名称的卷也会被覆盖。

在这里插入图片描述

启动该存储卷:

gluster volume start replicatedVolume 

在这里插入图片描述

查看 volume 状态:

gluster volume info

在这里插入图片描述

2. glusterfs-client 端部署

安装依赖:

yum install -y glusterfs glusterfs-fuse

创建挂载目录:

mkdir -p /gluster/distributed
mkdir -p /gluster/replicated

分布式卷挂载:

mount -t glusterfs node1:/distributedVolume /gluster/distributed

在这里插入图片描述

复制卷挂载:

mount -t glusterfs node1:/replicatedVolume /gluster/replicated

在这里插入图片描述

查看磁盘情况:

df -h

在这里插入图片描述

可以看到两个磁盘情况,由于我测试环境,给的磁盘较小,不过可以可出分布式卷式复制券的三倍大小。

三、文件测试

使用客户端机器上在分布式卷目录下创建文件:

cat > /gluster/distributed/test.txt << EOF
00011111222
EOF

分别查看 node1、node2、node3 的分布式卷下的情况:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

可以看出文件 hash 存储到了 node2 节点上。

使用客户端机器上在复制卷目录下创建文件:

cat > /gluster/replicated/test.txt << EOF
00011111222
EOF

分别查看 node1、node2、node3 的分布式卷下的情况:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

可以看出文件复制券会根据 replica 的大小,在相关的节点上都存储一份。

四、其它类型卷的使用及操作命令

分布式复制卷,机器数最少需要replica 的整数倍,如果指定 replica 2,则最少也需要 4 台机器:

gluster volume create volumeName replica 2 transport tcp node1:/data node2:/data node3:/data node4:/data 

条带卷,将文件切割成数据块,分别存储到 stripe x 个节点中。

gluster volume create volumeName stripe 2 transport tcp node1:/data node2:/data 

分布式条带卷,机器数最少需要stripe 的整数倍,如果指定 stripe 2 ,则最少需要 4 台机器:

gluster volume create volumeName  stripe 2 transport tcp node1:/data node2:/data  node3:/data node4:/data 

条带复制卷,机器数最少需要stripe+ replica台 ,指定 stripe 2replica 2,则需要 4 台机器:

gluster volume create volumeName   stripe 2 replica 2 transport tcp node1:/data node2:/data  node3:/data node4:/data 

分布式条带复制卷,机器数需要是stripe+ replica 的整数倍,如果指定 stripe 2replica 2,的话,就最少需要 8 台机器:

gluster volume create volumeName stripe 2 replica 2 transport tcp node1:/data node2:/data node3:/data node4:/data node5:/data node6:/data node7:/data node8:/data

查看所有卷:

gluster volume list

停止某个卷:

gluster volume stop volumeName

删除某个卷:

gluster volume delete volumeName

需要同时删除该卷下的 .glusterfs/ .trashcan/ 目录。

移除某个主机节点:

gluster peer detach node3

设置某个卷的 ip 访问限制:

gluster volume set volumeName auth.allow 10.6.0.*,10.7.0.*

为某个已经存在的卷添加节点,如果是复制卷或者条带卷,每次添加的 Brick 数必须是 replica 或者 stripe 的整数倍:

gluster volume add-brick volumeName node4:/data

为某个已经存在的卷移除节点,注意移除后剩余的机器需要能保证大于等于最小机器数:

gluster volume remove-brick volumeName node4:/data

五、参数调优

5.1 定磁盘使用配额

开启配额:

gluster volume quota volumeName enable

限制最大使用 100G:

gluster volume quota volumeName limit-usage / 100GB

5.2 开启异步操作

gluster volume set volumeName performance.flush-behind on

5.3 调整 io 线程的数量

gluster volume set volumeName performance.io-thread-count 32

5.4 使用缓存

# 设置缓存大小
gluster volume set models performance.cache-size 4GB
# 开启回写,先写到缓存,再刷到磁盘
gluster volume set models performance.write-behind on

这篇关于GlusterFS 分布式文件系统 搭建及使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/903618

相关文章

Android Paging 分页加载库使用实践

《AndroidPaging分页加载库使用实践》AndroidPaging库是Jetpack组件的一部分,它提供了一套完整的解决方案来处理大型数据集的分页加载,本文将深入探讨Paging库... 目录前言一、Paging 库概述二、Paging 3 核心组件1. PagingSource2. Pager3.

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

Python极速搭建局域网文件共享服务器完整指南

《Python极速搭建局域网文件共享服务器完整指南》在办公室或家庭局域网中快速共享文件时,许多人会选择第三方工具或云存储服务,但这些方案往往存在隐私泄露风险或需要复杂配置,下面我们就来看看如何使用Py... 目录一、android基础版:HTTP文件共享的魔法命令1. 一行代码启动HTTP服务器2. 关键参

C++11右值引用与Lambda表达式的使用

《C++11右值引用与Lambda表达式的使用》C++11引入右值引用,实现移动语义提升性能,支持资源转移与完美转发;同时引入Lambda表达式,简化匿名函数定义,通过捕获列表和参数列表灵活处理变量... 目录C++11新特性右值引用和移动语义左值 / 右值常见的左值和右值移动语义移动构造函数移动复制运算符

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

C#中lock关键字的使用小结

《C#中lock关键字的使用小结》在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时,其他线程无法访问同一实例的该代码块,下面就来介绍一下lock关键字的使用... 目录使用方式工作原理注意事项示例代码为什么不能lock值类型在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时

MySQL 强制使用特定索引的操作

《MySQL强制使用特定索引的操作》MySQL可通过FORCEINDEX、USEINDEX等语法强制查询使用特定索引,但优化器可能不采纳,需结合EXPLAIN分析执行计划,避免性能下降,注意版本差异... 目录1. 使用FORCE INDEX语法2. 使用USE INDEX语法3. 使用IGNORE IND

C# $字符串插值的使用

《C#$字符串插值的使用》本文介绍了C#中的字符串插值功能,详细介绍了使用$符号的实现方式,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录$ 字符使用方式创建内插字符串包含不同的数据类型控制内插表达式的格式控制内插表达式的对齐方式内插表达式中使用转义序列内插表达式中使用

flask库中sessions.py的使用小结

《flask库中sessions.py的使用小结》在Flask中Session是一种用于在不同请求之间存储用户数据的机制,Session默认是基于客户端Cookie的,但数据会经过加密签名,防止篡改,... 目录1. Flask Session 的基本使用(1) 启用 Session(2) 存储和读取 Se

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原