从零手写实现 nginx-10-sendfile 零拷贝 zero-copy

2024-06-07 16:04

本文主要是介绍从零手写实现 nginx-10-sendfile 零拷贝 zero-copy,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

大家好,我是老马。很高兴遇到你。

我们为 java 开发者实现了 java 版本的 nginx

https://github.com/houbb/nginx4j

如果你想知道 servlet 如何处理的,可以参考我的另一个项目:

手写从零实现简易版 tomcat minicat

手写 nginx 系列

如果你对 nginx 原理感兴趣,可以阅读:

从零手写实现 nginx-01-为什么不能有 java 版本的 nginx?

从零手写实现 nginx-02-nginx 的核心能力

从零手写实现 nginx-03-nginx 基于 Netty 实现

从零手写实现 nginx-04-基于 netty http 出入参优化处理

从零手写实现 nginx-05-MIME类型(Multipurpose Internet Mail Extensions,多用途互联网邮件扩展类型)

从零手写实现 nginx-06-文件夹自动索引

从零手写实现 nginx-07-大文件下载

从零手写实现 nginx-08-范围查询

从零手写实现 nginx-09-文件压缩

从零手写实现 nginx-10-sendfile 零拷贝

从零手写实现 nginx-11-file+range 合并

从零手写实现 nginx-12-keep-alive 连接复用

从零手写实现 nginx-13-nginx.conf 配置文件介绍

从零手写实现 nginx-14-nginx.conf 和 hocon 格式有关系吗?

从零手写实现 nginx-15-nginx.conf 如何通过 java 解析处理?

从零手写实现 nginx-16-nginx 支持配置多个 server

什么是零拷贝?

零拷贝(Zero Copy)是一种技术,用于在数据传输过程中减少或消除数据在用户空间和内核空间之间的拷贝次数,从而提高传输效率。

它广泛应用于文件传输、网络通信等场景,尤其是在处理大数据量传输时,零拷贝技术能够显著减少CPU的负载,提高系统性能。

零拷贝的基本原理

通常,数据在从磁盘读取到发送到网络的过程中,需要多次在用户空间和内核空间之间进行拷贝。

零拷贝技术通过减少这些拷贝操作,直接在内核空间内完成数据传输,避免了不必要的数据拷贝。

传统的数据传输流程

  1. 从磁盘读取数据到内核空间:操作系统将文件从磁盘读取到内核空间的缓冲区。
  2. 从内核空间拷贝数据到用户空间:应用程序调用read系统调用,将数据从内核缓冲区拷贝到用户空间的缓冲区。
  3. 从用户空间拷贝数据到内核空间:应用程序调用write系统调用,将数据从用户空间的缓冲区拷贝到内核空间的网络缓冲区。
  4. 从内核空间发送数据到网络:操作系统将数据从网络缓冲区发送到网络接口卡(NIC)。

整个过程涉及多次拷贝操作,增加了CPU和内存带宽的消耗。

零拷贝的数据传输流程

零拷贝技术通过减少数据在用户空间和内核空间之间的拷贝次数,提高数据传输效率。以下是几种常见的零拷贝实现方式:

  1. sendfile系统调用

sendfile是Linux内核提供的系统调用,它允许直接将数据从文件描述符传输到网络套接字,而无需将数据拷贝到用户空间。其工作流程如下:

  • 内核将文件数据从磁盘读取到内核缓冲区。
  • 内核直接将数据从内核缓冲区传输到网络缓冲区,并发送到网络接口卡。

这种方式避免了数据在用户空间和内核空间之间的两次拷贝,提高了传输效率。

ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
  1. mmapwrite结合使用

mmap系统调用将文件映射到用户空间的内存地址,通过内存映射,可以减少一次数据拷贝,但仍需一次从用户空间到内核空间的拷贝。工作流程如下:

  • 使用mmap将文件映射到用户空间。
  • 使用write将数据从映射的内存区域拷贝到网络缓冲区。
  1. splice系统调用

splice是Linux 2.6.17引入的系统调用,允许将数据在两个文件描述符之间传输,而无需将数据拷贝到用户空间。其工作流程如下:

  • 内核将文件数据从磁盘读取到内核缓冲区。
  • 内核直接将数据从内核缓冲区传输到另一个文件描述符(例如网络套接字)。
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);

零拷贝的优点

  • 减少CPU负载:由于减少了数据拷贝的次数,CPU的负载显著降低。
  • 提高传输速度:减少数据在内存中的拷贝操作,能够提高传输速度。
  • 降低延迟:减少数据在用户空间和内核空间之间的切换,提高了数据传输的实时性。

零拷贝的应用场景

  • 大文件传输:如视频文件、日志文件等大文件的网络传输。
  • 高性能服务器:如Web服务器、文件服务器等需要处理大量并发请求的服务器。
  • 数据库系统:如数据库备份、恢复等操作中涉及大数据量传输的场景。

核心代码调整

原始分块

    /*** 分块传输-普通方式* @param context 上下文*/protected void dispatchByRandomAccessFile(NginxRequestDispatchContext context) {final ChannelHandlerContext ctx = context.getCtx();final File targetFile = context.getFile();// 分块传输文件内容long totalLength = targetFile.length();long totalRead = 0;try(RandomAccessFile randomAccessFile = new RandomAccessFile(targetFile, "r")) {ByteBuffer buffer = ByteBuffer.allocate(NginxConst.CHUNK_SIZE);while (true) {int bytesRead = randomAccessFile.read(buffer.array());if (bytesRead == -1) { // 文件读取完毕break;}buffer.limit(bytesRead);// 写入分块数据ctx.write(new DefaultHttpContent(Unpooled.wrappedBuffer(buffer)));buffer.clear(); // 清空缓冲区以供下次使用// process 可以考虑加一个 listenertotalRead += bytesRead;logger.info("[Nginx] file process >>>>>>>>>>> {}/{}", totalRead, totalLength);}// 结果响应ChannelFuture lastContentFuture = ctx.writeAndFlush(LastHttpContent.EMPTY_LAST_CONTENT);//如果不支持keep-Alive,服务器端主动关闭请求if (!HttpUtil.isKeepAlive(context.getRequest())) {lastContentFuture.addListener(ChannelFutureListener.CLOSE);}} catch (Exception e) {logger.error("[Nginx] file meet ex", e);throw new Nginx4jException(e);}}

zero-copy

    /*** Netty 之 FileRegion 文件传输: https://www.jianshu.com/p/447c2431ac32** @param context 上下文*/protected void dispatchByZeroCopy(NginxRequestDispatchContext context) {final ChannelHandlerContext ctx = context.getCtx();final File targetFile = context.getFile();// 分块传输文件内容long totalLength = targetFile.length();try {RandomAccessFile randomAccessFile = new RandomAccessFile(targetFile, "r");FileChannel fileChannel = randomAccessFile.getChannel();// 使用DefaultFileRegion进行零拷贝传输DefaultFileRegion fileRegion = new DefaultFileRegion(fileChannel, 0, totalLength);ChannelFuture transferFuture = ctx.writeAndFlush(fileRegion);// 监听传输完成事件transferFuture.addListener(new ChannelFutureListener() {@Overridepublic void operationComplete(ChannelFuture future) {try {if (future.isSuccess()) {// 传输完毕,发送最后一个空内容,标志传输结束ChannelFuture lastContentFuture = ctx.writeAndFlush(LastHttpContent.EMPTY_LAST_CONTENT);// 如果不支持keep-Alive,服务器端主动关闭请求if (!HttpUtil.isKeepAlive(context.getRequest())) {lastContentFuture.addListener(ChannelFutureListener.CLOSE);}} else {// 处理传输失败logger.error("[Nginx] file transfer failed", future.cause());throw new Nginx4jException(future.cause());}} finally {// 确保在所有操作完成之后再关闭文件通道和RandomAccessFiletry {fileChannel.close();randomAccessFile.close();} catch (Exception e) {logger.error("[Nginx] error closing file channel", e);}}}});// 记录传输进度(如果需要,可以通过监听器或其他方式实现)logger.info("[Nginx] file process >>>>>>>>>>> {}", totalLength);} catch (Exception e) {logger.error("[Nginx] file meet ex", e);throw new Nginx4jException(e);}}

这里要注意,文件信息必须在传输完成后关闭。

因为 operationComplete 这个是异步的,直接 TRW 关闭资源会导致失败。很坑...

DefaultFileRegion

DefaultFileRegion是Netty中实现零拷贝文件传输的一个核心类。

它允许你在不将文件内容复制到用户空间的情况下将文件直接传输到网络,极大地提高了大文件传输的效率。

下面是对DefaultFileRegion的详细介绍,包括其工作原理和使用方法。

DefaultFileRegion的基本介绍

DefaultFileRegion类位于Netty的io.netty.channel包中。它实现了FileRegion接口,主要用于将文件的某个部分直接传输到网络套接字上,利用操作系统的零拷贝功能来提高效率。

工作原理

DefaultFileRegion通过调用操作系统的本地I/O方法(如Linux上的sendfile)实现零拷贝传输。它将数据从文件系统直接传输到网络栈,而不需要经过用户空间,这样可以避免不必要的数据拷贝,减少CPU使用,提高传输性能。

构造方法

public DefaultFileRegion(FileChannel file, long position, long count)
  • file: 要传输的文件的FileChannel
  • position: 文件传输的起始位置。
  • count: 要传输的字节数。

主要方法

  1. transferTo
public long transferTo(WritableByteChannel target, long position) throws IOException

将文件的内容从给定的位置传输到目标WritableByteChannel。这个方法会调用操作系统的底层方法来执行零拷贝。

  1. count
public long count()

返回这个文件区域的字节数。

  1. position
public long position()

返回这个文件区域的起始位置。

使用示例

以下是一个使用DefaultFileRegion进行零拷贝文件传输的示例:

import io.netty.channel.ChannelFuture;
import io.netty.channel.ChannelHandlerContext;
import io.netty.handler.codec.http.DefaultFileRegion;
import io.netty.handler.codec.http.HttpUtil;
import io.netty.handler.codec.http.LastHttpContent;import java.io.File;
import java.io.RandomAccessFile;
import java.nio.channels.FileChannel;public void sendFile(ChannelHandlerContext ctx, File file) {try {RandomAccessFile randomAccessFile = new RandomAccessFile(file, "r");FileChannel fileChannel = randomAccessFile.getChannel();long fileLength = file.length();// Create a new DefaultFileRegionDefaultFileRegion fileRegion = new DefaultFileRegion(fileChannel, 0, fileLength);// Send the file region over the channelChannelFuture sendFileFuture = ctx.writeAndFlush(fileRegion);// Add a listener to close the file channel after the send is completesendFileFuture.addListener((ChannelFuture future) -> {fileChannel.close();randomAccessFile.close();});// If the request does not support keep-alive, close the connectionif (!HttpUtil.isKeepAlive(request)) {sendFileFuture.addListener(ChannelFutureListener.CLOSE);}} catch (Exception e) {e.printStackTrace();}
}

注意事项

  1. 文件通道的管理:确保在文件传输完成后正确关闭FileChannelRandomAccessFile,避免资源泄漏。
  2. 异常处理:在传输过程中可能会遇到各种异常(如文件被删除或网络中断),需要进行适当的异常处理。
  3. 线程安全:确保FileChannel在传输过程中不会被其他线程关闭或修改。

适用场景

  • 大文件传输DefaultFileRegion非常适合用于传输大文件,如视频流、日志文件等,因为它能显著降低CPU使用率。
  • 高并发场景:在高并发场景下,减少CPU的拷贝操作能提高系统的整体性能和吞吐量。

总之,DefaultFileRegion是Netty中实现高效文件传输的一个强大工具,通过使用操作系统的零拷贝机制,可以显著提高文件传输的效率。

介绍一下零拷贝

小结

本节我们实现了文件的压缩处理,这个对于文件的传输性能提升比较大。

当然,压缩+解压本身也是对性能有损耗的。要结合具体的压缩比等考虑。

下一节,我们考虑实现一下 cors 的支持。

我是老马,期待与你的下次重逢。

开源地址

为了便于大家学习,已经将 nginx 开源

https://github.com/houbb/nginx4j

这篇关于从零手写实现 nginx-10-sendfile 零拷贝 zero-copy的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1039641

相关文章

python使用Akshare与Streamlit实现股票估值分析教程(图文代码)

《python使用Akshare与Streamlit实现股票估值分析教程(图文代码)》入职测试中的一道题,要求:从Akshare下载某一个股票近十年的财务报表包括,资产负债表,利润表,现金流量表,保存... 目录一、前言二、核心知识点梳理1、Akshare数据获取2、Pandas数据处理3、Matplotl

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

深度解析Nginx日志分析与499状态码问题解决

《深度解析Nginx日志分析与499状态码问题解决》在Web服务器运维和性能优化过程中,Nginx日志是排查问题的重要依据,本文将围绕Nginx日志分析、499状态码的成因、排查方法及解决方案展开讨论... 目录前言1. Nginx日志基础1.1 Nginx日志存放位置1.2 Nginx日志格式2. 499

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、