【2021集创赛】海云捷迅杯一等奖:基于稀疏卷积与层融合的流水线优化方案

本文主要是介绍【2021集创赛】海云捷迅杯一等奖:基于稀疏卷积与层融合的流水线优化方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

海云捷迅杯:基于FPGA C5Soc的MobileNetV1 SSD目标检测方案设计

本作品参与极术社区组织的有奖征集|秀出你的集创赛作品风采,免费电子产品等你拿~活动。

**杯赛题目:**海云捷迅杯——基于FPGA C5Soc的MobileNetV1 SSD目标检测方案设计
设计任务:

  1. 基于已训练好的SSD模型参数文件、基于已有的Intel FPGA工程网表文件、Linux-C5soc平台的Paddle-Paddle框架驱动为参考,优化或者重新设计加速器以及对应驱动,并部署SSD模型到FPGA进行推理。
  2. 对方案进行评估和实现。
  3. 提出设计方案,提升性能并实现。

团队介绍

**参赛单位:**南京大学
**队伍名称:**爱卡丝俱乐部
**指导老师:**王中风
**参赛队员:**薛睿鑫、程昕、苏天祺
**总决赛奖项:**一等奖和企业大奖

项目介绍

本项目采用Intel Cyclone V系列的SoC芯片进行开发,部署以MobileNet V1为backbone的SSD目标检测模型,对硬软件进行协同优化,以提高目标检测效率。整个系统包括PS (processing system) 端和PL (programmable logic) 端两部分,PS端包括ARM处理器、Memory,负责数据传输及计算流程的预处理和控制;PL端则包括卷积和偏置激活计算单元、SRAM等,负责对高负载的运算进行加速。PL端的数据通过Avalon总线与DRAM进行交互。

我们在量化排序传输计算流水线这五个方面对系统进行了优化,具体的优化手段如下图所示。通过上述优化,目标检测的速度提升超过3.5倍

在这里插入图片描述

我们的技术创新点体现在以下几个方面:

  1. 重新设计了稀疏卷积的数据流,采用Row-wise、Weight stationary的滑窗卷积方式,将计算并行度提高到96,并支持channel-wise的input数据稀疏,提高了FPGA上数据的复用性,大大减少数据的传输量,从而减少数据的传输时间、降低功耗。
  2. 采用层融合方式处理每层的偏置和激活操作,在FPGA上的卷积计算完成后,将结果直接传到偏置激活计算单元进行计算,再将偏置激活的计算结果经过SRAM传到片外。这样一方面能够加速偏置激活的计算,另一方面,经过偏置激活的计算后,数据能够支持量化为更低比特而不损失精度,从而进一步减少数据的传输。
  3. 增加input、weight、bias和output四个 Ping Pong Buffer,使数据传输与计算时间能够重叠,这样进一步优化了数据计算的流水线,在同一时间内进行数据传输和计算,从而实现对系统的加速。
  4. 在进行模型预测之前将量化并重排的权重和偏置保存,避免每次预测时对权重和偏置数据的重复量化和重排。

系统架构

为实现快速的目标检测效果,我们设计的系统整体架构图如下图所示。数据经UpSizer和BusMatrix单元进行仲裁,存储到相应的SRAM中。当计算开始时,卷积模块可以直接从SRAM中读取数据,卷积的结果直接传入BiasRelu单元进行计算,再写入Output Ping Pong Buffer,最终的output再经过BusMatrix和UpSizer单元传回DRAM。

在这里插入图片描述

优化效果

经过充分的仿真验证和上板调试,系统能够正确完成目标检测任务,最终的目标识别速度能够达到最快每张图836ms

在这里插入图片描述

我们统计了优化前后卷积层的加速比,结果如下图所示,相比原始优化前的系统,我们的加速系统能够实现最高39倍加速比平均4.5倍加速比

在这里插入图片描述

参赛体会

这次比赛,给了我们一个很好的机会,提升硬软件协同开发的能力。从硬件数据流的设计到代码的调试,我们一步一个脚印,提出了很多优化的方案,并评估它们的可行性,最终实现了上面所述的加速系统。团队的成员也能够优势互补,在讨论中碰撞出了很多火花。非常感谢实验室的学长学姐和赛事指导老师曾给予我们的帮助,在我们遇到难题时帮助我们指明解决问题的方向。

在这里插入图片描述

未来展望

  1. 针对深度卷积进行层融合优化。将深度卷积与前一层的卷积融合,减少中间数据的传输。
  2. 利用DMA进行片上与片下数据的传输,提高传输效率。
  3. 探索更加有效的量化方式,能够进一步减少数据的传输量的同时保持精度。

总结

我们在官方提供的系统基础上进行优化,成功在Intel Cyclon V SoC芯片上部署了以MobileNet v1为backbone网络的SSD目标检测模型,联合优化ARM端和FPGA端,实现了硬件加速效果。
我们有针对性地设计了稀疏卷积和偏置激活计算的数据流,提高FPGA上数据的复用性,减少数据传输;偏置激活的计算与卷积采用层融合的流水线进行优化,能够在加速偏置激活计算的同时,实现更低比特的数据量化,进一步减少数据的传输;Ping Pong Buffer优化的数据传输与计算流水线,使得数据的计算和传输能够在同一时间进行,减少了计算的空闲状态;此外,我们还优化了模型的量化操作,在进行模型预测之前将量化后的权重和偏置保存,避免每次量化时对权重和偏置数据的重复量化。以上工作共同作用,大大优化了系统的整体性能,提升计算速度。
最后的实验结果表明,我们的设计分别在模型中的普通卷积层和逐点卷积层上实现了最高39×和平均4.5×的加速比。在上板测试中,我们在保证结果正确的情况下,将单张图片的识别速度从3000ms提升到了836ms,取得了超过3.5倍的速度提升。

作品内容来源于爱卡丝俱乐部,转载请标明出处。欢迎大家参加极术社区组织的有奖征集|秀出你的集创赛作品风采,免费电子产品等你拿~活动,10月1日截止~

这篇关于【2021集创赛】海云捷迅杯一等奖:基于稀疏卷积与层融合的流水线优化方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/325279

相关文章

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

前端缓存策略的自解方案全解析

《前端缓存策略的自解方案全解析》缓存从来都是前端的一个痛点,很多前端搞不清楚缓存到底是何物,:本文主要介绍前端缓存的自解方案,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、为什么“清缓存”成了技术圈的梗二、先给缓存“把个脉”:浏览器到底缓存了谁?三、设计思路:把“发版”做成“自愈”四、代码

解决docker目录内存不足扩容处理方案

《解决docker目录内存不足扩容处理方案》文章介绍了Docker存储目录迁移方法:因系统盘空间不足,需将Docker数据迁移到更大磁盘(如/home/docker),通过修改daemon.json配... 目录1、查看服务器所有磁盘的使用情况2、查看docker镜像和容器存储目录的空间大小3、停止dock

Spring Gateway动态路由实现方案

《SpringGateway动态路由实现方案》本文主要介绍了SpringGateway动态路由实现方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随... 目录前沿何为路由RouteDefinitionRouteLocator工作流程动态路由实现尾巴前沿S

分析 Java Stream 的 peek使用实践与副作用处理方案

《分析JavaStream的peek使用实践与副作用处理方案》StreamAPI的peek操作是中间操作,用于观察元素但不终止流,其副作用风险包括线程安全、顺序混乱及性能问题,合理使用场景有限... 目录一、peek 操作的本质:有状态的中间操作二、副作用的定义与风险场景1. 并行流下的线程安全问题2. 顺

C#实现高性能拍照与水印添加功能完整方案

《C#实现高性能拍照与水印添加功能完整方案》在工业检测、质量追溯等应用场景中,经常需要对产品进行拍照并添加相关信息水印,本文将详细介绍如何使用C#实现一个高性能的拍照和水印添加功能,包含完整的代码实现... 目录1. 概述2. 功能架构设计3. 核心代码实现python3.1 主拍照方法3.2 安全HBIT

Docker多阶段镜像构建与缓存利用性能优化实践指南

《Docker多阶段镜像构建与缓存利用性能优化实践指南》这篇文章将从原理层面深入解析Docker多阶段构建与缓存机制,结合实际项目示例,说明如何有效利用构建缓存,组织镜像层次,最大化提升构建速度并减少... 目录一、技术背景与应用场景二、核心原理深入分析三、关键 dockerfile 解读3.1 Docke

MyBatis Plus实现时间字段自动填充的完整方案

《MyBatisPlus实现时间字段自动填充的完整方案》在日常开发中,我们经常需要记录数据的创建时间和更新时间,传统的做法是在每次插入或更新操作时手动设置这些时间字段,这种方式不仅繁琐,还容易遗漏,... 目录前言解决目标技术栈实现步骤1. 实体类注解配置2. 创建元数据处理器3. 服务层代码优化填充机制详

防止Linux rm命令误操作的多场景防护方案与实践

《防止Linuxrm命令误操作的多场景防护方案与实践》在Linux系统中,rm命令是删除文件和目录的高效工具,但一旦误操作,如执行rm-rf/或rm-rf/*,极易导致系统数据灾难,本文针对不同场景... 目录引言理解 rm 命令及误操作风险rm 命令基础常见误操作案例防护方案使用 rm编程 别名及安全删除

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、