【硬件相关】Mellanox网络配置及参数优化

2024-03-05 03:12

本文主要是介绍【硬件相关】Mellanox网络配置及参数优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 一、前言
      • 1、硬件配置
      • 2、网卡信息
    • 二、驱动安装
      • 1、驱动介绍
      • 2、软件架构
        • 2.1、mlx4 VPI Driver
        • 2.2、mlx5 Driver
      • 3、驱动安装
        • 3.1、常规安装
        • 3.2、驱动编译
          • 方法一
          • 方法二
      • 4、RDMA配置
    • 三、交换机配置
    • 四、mlnx-tools管理工具
      • 1、软件安装
      • 2、软件使用
        • ibdev2netdev
          • a、说明
          • b、用法

一、前言

本文主要介绍Mellanox网络配置、部署管理及相关调优手段,用于后续部署实践参考使用

1、硬件配置

序号配件名称配件型号
1100GE 双口网卡Mellanox MCX456A-ECAT
2100GE 以太网DAC线缆Mellanox MCP1600-C003
3100GE 以太网交换机Asterfusion CX532P-NT-AC

2、网卡信息

NVIDIA ConnectX InfiniBand网卡介绍
NVIDIA ConnectX-4 InfiniBand/Ethernet Adapter Cards User Manual

  • 网卡端口:双口(Dual-port QSFP28)
  • 网卡速率:InfiniBand: SDR/DDR/QDR/FDR/EDREthernet: 10/25/40/50/100 Gb/s
  • PCIe版本:8.0GT/s(PCIe 3.0)
  • 插槽宽度:x16 lanes
  • 网卡驱动:mlx5_core
[root@node154 ~]# lspci | grep Eth | grep Mellanox
3b:00.0 Ethernet controller: Mellanox Technologies MT27700 Family [ConnectX-4]
3b:00.1 Ethernet controller: Mellanox Technologies MT27700 Family [ConnectX-4][root@node154 ~]# lspci -vvv -s 3b:00.0 | grep -E '(LnkCap:|LnkSta:)'LnkCap: Port #0, Speed 8GT/s, Width x16, ASPM not supported, Exit Latency L0s unlimited, L1 <4usLnkSta: Speed 8GT/s, Width x16, TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-

二、驱动安装

1、驱动介绍

MLNX_OFED Introduction

Mellanox OFED是一个单一的虚拟协议互连(Virtual Protocol Interconnect,VPI)软件栈,可以在所有Mellanox网络适配器解决方案中运行,支持以下到服务器的上行链路:

网卡类别网卡驱动上行速率
ConnectX®-3/ ConnectX®-3 Promlx4InfiniBand: SDR, QDR, FDR10, FDR
Ethernet: 10GigE, 40GigE and 56GigE
ConnectX®-4mlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, 56GigE1, and 100GigE
ConnectX®-4 Lxmlx5Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, and 50GigE
ConnectX®-5mlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
ConnectX®-5 Exmlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
ConnectX®-6mlx5InfiniBand: SDR, EDR, HDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
Innova™ IPsec ENmlx5Ethernet: 10GigE, 40GigE
Connect-IB®mlx5InfiniBand: SDR, QDR, FDR10, FDR

2、软件架构

Mellanox OFED协议栈的示意参考如下,展示了上层协议如何与硬件、内核和用户空间通信

在这里插入图片描述

2.1、mlx4 VPI Driver

mlx4是Mellanox设计的ConnectX®系列适配器的低级驱动程序实现。ConnectX®-3适配器可以作为ib适配器或以太网网卡使用。OFED驱动支持Infiniband和Ethernet网卡配置。为了适应支持的配置,驱动程序被分成以下模块:

  • mlx4_core

处理低级功能,如设备初始化和固件命令处理,控制资源分配,使ib和以太网功能可以共享设备而不相互干扰

  • mlx4_ib

处理InfiniBand的专用功能

  • mlx4_en

处理Ethernet的专用功能

2.2、mlx5 Driver

mlx5是Mellanox设计的Connect-IB®和ConnectX®-4适配器的低级驱动程序实现。Connect-IB®作为InfiniBand适配器运行,而ConnectX®-4作为VPI适配器(InfiniBand和Ethernet)运行。mlx5驱动程序由以下内核模块组成:

  • mlx5_core

作为Connect-IB®和ConnectX®-4适配器卡所需的常用函数库(例如,复位后初始化设备),mlx5_core驱动程序还实现了ConnectX®-4的以太网接口。与mlx4_en/core不同,mlx5驱动程序不需要mlx5_en模块,因为以太网功能内置在mlx5_core模块中。

  • mlx5_ib

处理InfiniBand的专用功能

  • libmlx5

Libmlx5是实现特定于硬件的用户空间功能的提供程序库。如果固件和驱动程序之间不兼容,驱动程序将无法加载,并且将在dmesg中打印一条消息

3、驱动安装

驱动下载地址:NVIDIA MLNX_OFED
驱动安装说明:Installing MLNX_OFED

3.1、常规安装

用于Ethernet和Infiniband网络的Linux驱动程序在所有主流操作系统发行版本都可以使用,如kylin、openEuler、UOS、CentOS、Ubuntu等,可以根据操作系统、硬件架构选择不同驱动版本包下载

  • 根据当前操作系统版本及硬件架构,选择下载对应驱动软件包(MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64.tgz)

在这里插入图片描述

  • 对于主流发行系统版本,在不升级默认内核版本情况下,mlnx_ofed提供了预构建RPM包,直接执行驱动软件安装即可
    注:
    执行mlnxofedinstall安装脚本,程序会自动检测当前安装的内核版本,卸载不匹配的软件包,安装MLNX-OFED二进制驱动程序包,标识当前Infiniband和Ethernet网络适配器,并自动升级固件(如需安装自定义固件版本,则使用./mlnxofedinstall --fw-image-dir /tmp/my_fw_bin_files
    安装完成后,会在tmp目录生成对应安装日志文件(如/tmp/MLNX_OFED_LINUX.1713584.logs/general.log
tar -zxvf MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64.tgz
cd MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64/
./mlnxofedinstall --all --force
3.2、驱动编译
#当前环境信息如下
[root@node88 ~]# cat /etc/.productinfo
Kylin Linux Advanced Server
release V10 (8.2) /(Sun)-aarch64-Build03/20210903[root@node88 ~]# cat /etc/.kyinfo
[dist]
name=Kylin
milestone=Server-V10-SP3-2309a-Release-S5000C-20231025
arch=arm64
beta=False
time=2023-10-25 17:40:45
dist_id=Kylin-Server-V10-SP3-2309a-Release-S5000C-20231025-arm64-2023-10-25 17:40:45[servicekey]
key=0320031[os]
to=
term=2025-01-23[root@node88 ~]# cat /etc/redhat-release
Red Hat Enterprise Linux Server release 8.2 (Ootpa)[root@node88 ~]# uname -a
Linux node88 5.15.0-1.10.6.v2307.ky10h.aarch64 #1 SMP Sun Oct 15 14:14:45 CST 2023 aarch64 aarch64 aarch64 GNU/Linux

在执行上一步安装如出现Current operation system is not supported!,则表明Mellanox预先编译的程序包无法在当前内核版本下运行,需要基于当前环境重新编译tgz软件包,再次执行软件安装即可

方法一
./mlnxofedinstall --all --force  --add-kernel-support
dracut -f
方法二

How to install MLNX_OFED for customized OS

通常情况下,如果针对操作系统做了一些自定义修改,有可能导致安装脚本无法识别操作系统发行版本号,导致安装失败,提示Current operation system is not supported!
对于这类情况,需要手动编译MLNX-OFED驱动包,使用重新编译的驱动包进行安装

  • 参照当前系统的基础操作系统版本,下载对应发行版本原始驱动包压缩包,解压缩进入对应目录

在这里插入图片描述

wget https://www.mellanox.com/page/mlnx_ofed_eula?mtag=linux_sw_drivers&mrequest=downloads&mtype=ofed&mver=MLNX_OFED-5.8-4.1.5.0&mname=MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64.tgz
tar -zxvf MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64.tgz
cd MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64/
  • 基于当前系统重新编译驱动包
    注:编译过程如出现Error: One or more required packages for installing OFED-internal are missing.依赖错误,则按照提示信息安装对应依赖软件包即可
  • -m 用于指定原始驱动包的目录
  • –make-tgz 表示以tgz压缩包方式打包
  • -t 用于指定存放重新编译驱动包的目录
  • –distro 用于指定当前系统发行版本,示例为kylin10
./mlnx_add_kernel_support.sh -m /home/mlx5/MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64/ --make-tgz -t /tmp  --distro kylin10 
  • 执行编译操作后,会在/tmp目录下生成当前内核的驱动包压缩包,解压缩进入目录,执行以下安装命令即可
  • –skip-distro-check 表示不进行当前OS的发布版本号检查
./mlnxofedinstall --skip-distro-check --force

4、RDMA配置

所有节点执行RDMA相关配置优化,参考如下

[root@node154 ~]# cat RDMA.sh
#!/bin/bash
for mlx_dev in $(ibdev2netdev | awk '{print $1}')
doif_dev=$(ibdev2netdev | grep $mlx_dev | awk '{print $5}')ifconfig "${if_dev}" mtu 9000.cma_roce_tos -d "${mlx_dev}" -t 120mlnx_qos -i "${if_dev}" --trust dscpmlnx_qos -i "${if_dev}" --pfc 0,0,0,1,0,0,0,0mlnx_qos -i ${if_dev} --dscp2prio set,30,3echo 48 >/sys/class/net/${if_dev}/ecn/roce_np/cnp_dscpecho 1 >/sys/class/net/${if_dev}/ecn/roce_np/enable/3echo 1 >/sys/class/net/${if_dev}/ecn/roce_rp/enable/3cma_roce_mode -d ${mlx_dev} -p 1 -m 2sysctl -w net.ipv4.tcp_ecn=1echo 120 > /sys/class/infiniband/"${mlx_dev}"/tc/1/traffic_class
done
[root@node154 ~]# sh RDMA.sh

三、交换机配置

与10Gb交换机有所不同,服务器直接连接到交换机网络是没法通信的,100Gb交换机需要针对网络端口划分vlan,同一个网络环境不同网络端口划分到同一个vlan之后,服务器之间网络方可正常通信。
交换机出厂内置队列、拥塞等参数配置,故交换机端针对RDMA无需做任何特殊配置。

现有交换机vlan配置如下:

物理端口逻辑网口vlan标签
0~90/0~0/32vlan100
10~200/36~0/76vlan200

注:交换机逻辑网口以4的倍数递增,如物理端口0对应0/0,物理端口1对应0/4,以此类推

笔记本通过USB转RJ45串口线连接至交换机COM口,协议选择SERIAL,波特率选择115200,参考配置命令如下:
注:默认账号密码为admin/asteros

sonic@sonic:~$ sudo config cli-mode cli
sonic@sonic:~$ sudo sonic-cli
sonic# configure terminal
sonic(config)# vlan 100
sonic(config-vlan-100)# vlan 200
sonic(config-vlan-200)# interface ethernet 0/0
sonic(config-if-0/0)# switchport access vlan 100
sonic(config-if-0/0)# interface ethernet 0/4
sonic(config-if-0/4)# switchport access vlan 100
sonic(config-if-0/4)# interface ethernet 0/80
sonic(config-if-0/112)# switchport access vlan 200
sonic(config-if-0/112)# interface ethernet 0/84
sonic(config-if-0/116)# switchport access vlan 200
sonic(config-if-0/120)# end
sonic#write 
save running-config...
Existing files will be overwritten, continue? [y/N]:y

四、mlnx-tools管理工具

1、软件安装

mlnx-tools

若当前操作系统未安装MLNX_OFED驱动,则需要安装mlnx-tools工具,否则无法使用cma_roce_tos、ibdev2netdev等命令行工具
mlnx-tools是Mellanox提供的一个用户界面工具和脚本,用于管理Mellanox网络配置

  • 安装mlnx-tools的utils工具
wget https://github.com/Mellanox/mlnx-tools/archive/refs/tags/v5.1.3.tar.gz
tar -zxvf mlnx-tools-5.1.3.tar.gz
cd mlnx-tools-5.1.3/ofed_scripts/utils/
python3 setup.py install
  • 安装mlnx-tools的script脚本
[root@node88 mlx5]# cd mlnx-tools-5.1.3/ofed_scripts/
[root@node88 ofed_scripts]# ll
total 92
-rwxrwxr-x 1 root root  2566 Oct  3  2020 cma_roce_mode
-rwxrwxr-x 1 root root  2483 Oct  3  2020 cma_roce_tos
-rwxrwxr-x 1 root root  3696 Oct  3  2020 common_irq_affinity.sh
-rwxrwxr-x 1 root root  7726 Oct  3  2020 ibdev2netdev
-rwxrwxr-x 1 root root  8321 Oct  3  2020 mlnx_affinity
-rwxrwxr-x 1 root root   453 Oct  3  2020 mlnx-post-hlk
-rwxrwxr-x 1 root root  1023 Oct  3  2020 mlnx-pre-hlk
-rwxrwxr-x 1 root root  2411 Oct  3  2020 odp_stat.sh
-rwxrwxr-x 1 root root 11065 Oct  3  2020 roce_config.sh
-rwxrwxr-x 1 root root  3015 Oct  3  2020 set_irq_affinity_bynode.sh
-rwxrwxr-x 1 root root  2493 Oct  3  2020 set_irq_affinity_cpulist.sh
-rwxrwxr-x 1 root root  2997 Oct  3  2020 set_irq_affinity.sh
-rw-rw-r-- 1 root root  2216 Oct  3  2020 setup_mr_cache.sh
-rw-rw-r-- 1 root root  1367 Oct  3  2020 show_counters
-rwxrwxr-x 1 root root  2939 Oct  3  2020 show_gids
-rwxrwxr-x 1 root root  1349 Oct  3  2020 show_irq_affinity_hints.sh
-rwxrwxr-x 1 root root  1369 Oct  3  2020 show_irq_affinity.sh
-rwxrwxr-x 1 root root  2489 Oct  3  2020 sysctl_perf_tuning
drwxrwxr-x 3 root root   276 Jan 10 09:48 utils
[root@node88 ofed_scripts]# cp * /usr/sbin/

2、软件使用

linux-driver-solutions

ibdev2netdev
a、说明

ibdev2netdev是MLNX-OFED提供的脚本,用于展示适配器端口和网卡的映射关系及当前状态信息

b、用法
  • 查看适配器端口和网卡映射关系及连接状态:ibdev2netdev -v
[root@node88 ~]# ibdev2netdev -v
0000:01:00.0 rocep1s0f0 (MT4115 -            )                 fw 12.28.2006 port 1 (ACTIVE) ==> enp1s0f0np0 (Up)
0000:01:00.1 rocep1s0f1 (MT4115 -            )                 fw 12.28.2006 port 1 (DOWN  ) ==> enp1s0f1np1 (Down)
  • 检查Infiniband链路状态:hca_self_test.ofed
[root@node154 ~]# hca_self_test.ofed
---- Performing Adapter Device Self Test ----
Number of CAs Detected ................. 2
PCI Device Check ....................... PASS
Kernel Arch ............................ x86_64
Host Driver Version .................... MLNX_OFED_LINUX-5.7-1.0.2.0 (OFED-5.7-1.0.2): 4.14.113-1.el7.x86_64
Host Driver RPM Check .................. PASS
Firmware on CA #0 NIC .................. v12.28.2006
Firmware on CA #1 NIC .................. v12.28.2006
Host Driver Initialization ............. PASS
Number of CA Ports Active .............. 1
Port State of Port #1 on CA #0 (NIC)..... UP 4X EDR (Ethernet)
Port State of Port #1 on CA #1 (NIC)..... DOWN (Ethernet)
Error Counter Check on CA #0 (NIC)...... PASS
Error Counter Check on CA #1 (NIC)...... PASS
Kernel Syslog Check .................... PASS
Node GUID on CA #0 (NIC) ............... 24:8a:07:03:00:27:d2:40
Node GUID on CA #1 (NIC) ............... 24:8a:07:03:00:27:d2:41
------------------ DONE ---------------------

这篇关于【硬件相关】Mellanox网络配置及参数优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/775150

相关文章

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

Debian系和Redhat系防火墙配置方式

《Debian系和Redhat系防火墙配置方式》文章对比了Debian系UFW和Redhat系Firewalld防火墙的安装、启用禁用、端口管理、规则查看及注意事项,强调SSH端口需开放、规则持久化,... 目录Debian系UFW防火墙1. 安装2. 启用与禁用3. 基本命令4. 注意事项5. 示例配置R

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q

Redis MCP 安装与配置指南

《RedisMCP安装与配置指南》本文将详细介绍如何安装和配置RedisMCP,包括快速启动、源码安装、Docker安装、以及相关的配置参数和环境变量设置,感兴趣的朋友一起看看吧... 目录一、Redis MCP 简介二、安www.chinasem.cn装 Redis MCP 服务2.1 快速启动(推荐)2.

Spring Boot配置和使用两个数据源的实现步骤

《SpringBoot配置和使用两个数据源的实现步骤》本文详解SpringBoot配置双数据源方法,包含配置文件设置、Bean创建、事务管理器配置及@Qualifier注解使用,强调主数据源标记、代... 目录Spring Boot配置和使用两个数据源技术背景实现步骤1. 配置数据源信息2. 创建数据源Be

小白也能轻松上手! 路由器设置优化指南

《小白也能轻松上手!路由器设置优化指南》在日常生活中,我们常常会遇到WiFi网速慢的问题,这主要受到三个方面的影响,首要原因是WiFi产品的配置优化不合理,其次是硬件性能的不足,以及宽带线路本身的质... 在数字化时代,网络已成为生活必需品,追剧、游戏、办公、学习都离不开稳定高速的网络。但很多人面对新路由器

Spring Boot Maven 插件如何构建可执行 JAR 的核心配置

《SpringBootMaven插件如何构建可执行JAR的核心配置》SpringBoot核心Maven插件,用于生成可执行JAR/WAR,内置服务器简化部署,支持热部署、多环境配置及依赖管理... 目录前言一、插件的核心功能与目标1.1 插件的定位1.2 插件的 Goals(目标)1.3 插件定位1.4 核

RabbitMQ消息总线方式刷新配置服务全过程

《RabbitMQ消息总线方式刷新配置服务全过程》SpringCloudBus通过消息总线与MQ实现微服务配置统一刷新,结合GitWebhooks自动触发更新,避免手动重启,提升效率与可靠性,适用于配... 目录前言介绍环境准备代码示例测试验证总结前言介绍在微服务架构中,为了更方便的向微服务实例广播消息,

MySQL深分页进行性能优化的常见方法

《MySQL深分页进行性能优化的常见方法》在Web应用中,分页查询是数据库操作中的常见需求,然而,在面对大型数据集时,深分页(deeppagination)却成为了性能优化的一个挑战,在本文中,我们将... 目录引言:深分页,真的只是“翻页慢”那么简单吗?一、背景介绍二、深分页的性能问题三、业务场景分析四、

Linux进程CPU绑定优化与实践过程

《Linux进程CPU绑定优化与实践过程》Linux支持进程绑定至特定CPU核心,通过sched_setaffinity系统调用和taskset工具实现,优化缓存效率与上下文切换,提升多核计算性能,适... 目录1. 多核处理器及并行计算概念1.1 多核处理器架构概述1.2 并行计算的含义及重要性1.3 并