YOLOv9改进策略：blcok优化 | 极简的神经网络VanillaBlock 实现涨点 |华为诺亚 VanillaNet

本文主要是介绍YOLOv9改进策略：blcok优化 | 极简的神经网络VanillaBlock 实现涨点 |华为诺亚 VanillaNet，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

💡💡💡本文改进内容： VanillaNet，是一种设计优雅的神经网络架构，通过避免高深度、shortcuts和自注意力等复杂操作，VanillaNet 简洁明了但功能强大。

💡💡💡引入VanillaBlock GFLOPs从原始的238.9降低至 165.0 ，保持轻量级的同时在多个数据集验证能够高效涨点


yolov9-c-VanillaBlock summary: 1022 layers, 53924164 parameters, 53924132 gradients, 165.0 GFLOP

原始

yolov9-c summary: 962 layers, 51011140 parameters, 51011108 gradients, 238.9 GFLOPs

改进结构图如下：

《YOLOv9魔术师专栏》将从以下各个方向进行创新：

【原创自研模块】【多组合点优化】【注意力机制】【卷积魔改】【block&多尺度融合结合】【损失&IOU优化】【上下采样优化 】【SPPELAN & RepNCSPELAN4优化】【小目标性能提升】【前沿论文分享】【训练实战篇】

订阅者通过添加WX: AI_CV_0624，入群沟通，提供改进结构图等一系列定制化服务。

订阅者可以申请发票，便于报销

YOLOv9魔术师专栏

💡💡💡为本专栏订阅者提供创新点改进代码，改进网络结构图，方便paper写作！！！

💡💡💡适用场景：红外、小目标检测、工业缺陷检测、医学影像、遥感目标检测、低对比度场景

💡💡💡适用任务：所有改进点适用【检测】、【分割】、【pose】、【分类】等

💡💡💡全网独家首发创新，【自研多个自研模块】，【多创新点组合适合paper 】！！！

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

包含注意力机制魔改、卷积魔改、检测头创新、损失&IOU优化、block优化&多层特征融合、轻量级网络设计、24年最新顶会改进思路、原创自研paper级创新等

🚀🚀🚀 本项目持续更新 | 更新完结保底≥80+ ，冲刺100+ 🚀🚀🚀

🍉🍉🍉 联系WX: AI_CV_0624 欢迎交流！🍉🍉🍉

⭐⭐⭐专栏涨价趋势 99 ->199->259->299，越早订阅越划算⭐⭐⭐

💡💡💡 2024年计算机视觉顶会创新点适用于Yolov5、Yolov7、Yolov8等各个Yolo系列，专栏文章提供每一步步骤和源码，轻松带你上手魔改网络！！！

💡💡💡重点：通过本专栏的阅读，后续你也可以设计魔改网络，在网络不同位置（Backbone、head、detect、loss等）进行魔改，实现创新！！！

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

1.YOLOv9原理介绍

论文： 2402.13616.pdf (arxiv.org)

代码：GitHub - WongKinYiu/yolov9: Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information摘要： 如今的深度学习方法重点关注如何设计最合适的目标函数，从而使得模型的预测结果能够最接近真实情况。同时，必须设计一个适当的架构，可以帮助获取足够的信息进行预测。然而，现有方法忽略了一个事实，即当输入数据经过逐层特征提取和空间变换时，大量信息将会丢失。因此，YOLOv9 深入研究了数据通过深度网络传输时数据丢失的重要问题，即信息瓶颈和可逆函数。作者提出了可编程梯度信息（programmable gradient information，PGI）的概念，来应对深度网络实现多个目标所需要的各种变化。PGI 可以为目标任务计算目标函数提供完整的输入信息，从而获得可靠的梯度信息来更新网络权值。此外，研究者基于梯度路径规划设计了一种新的轻量级网络架构，即通用高效层聚合网络（Generalized Efficient Layer Aggregation Network，GELAN）。该架构证实了 PGI 可以在轻量级模型上取得优异的结果。研究者在基于 MS COCO 数据集的目标检测任务上验证所提出的 GELAN 和 PGI。结果表明，与其他 SOTA 方法相比，GELAN 仅使用传统卷积算子即可实现更好的参数利用率。对于 PGI 而言，它的适用性很强，可用于从轻型到大型的各种模型。我们可以用它来获取完整的信息，从而使从头开始训练的模型能够比使用大型数据集预训练的 SOTA 模型获得更好的结果。对比结果如图1所示。

YOLOv9框架图

1.1 YOLOv9框架介绍

YOLOv9各个模型介绍

2.VanillaNet

论文：https://arxiv.org/pdf/2305.12972.pdf

来自华为诺亚、悉尼大学的研究者们提出了一种极简的神经网络模型 VanillaNet，以极简主义的设计为理念，网络中仅仅包含最简单的卷积计算，去掉了残差和注意力模块，在计算机视觉中的各种任务上都取得了不俗的效果。

VanillaNet，这是一种设计优雅的神经网络架构。通过避免高深度、shortcuts和自注意力等复杂操作，VanillaNet 简洁明了但功能强大。

对于Stem部分，采用4×4卷积进行特征变换；
对于body部分的每个stage，首先采用MaxPool进行特征下采样，然后采用一个1×1进行特征处理；
对于head部分，采用两个非线性层进行分类处理

深度为6的网络即可取得76.36%@ImageNet的精度，深度为13的VanillaNet甚至取得了83.1%的惊人性能。

所提出的 VanillaNet 具有十分惊艳的速度和精度指标，例如 VanillaNet-9 仅仅使用 9 层，就在 ImageNet 上达到了接近 80% 的精度，和同精度的 ResNet-50 相比，速度提升一倍以上（2.91ms v.s. 7.64ms），而 13 层的 VanillaNet 已经可以达到 83% 的 Top-1 准确率，和相同精度的 Swin-S 网络相比速度快 1 倍以上。尽管 VanillaNet 的参数量和计算量都远高于复杂网络，但由于其极简设计带来的优势，速度反而更快。

3.VanillaBlock加入到YOLOv9

3.1新建py文件，路径为models/block/VanillaNetBlock.py

后续开源

3.2修改yolo.py

1)首先进行引用

from models.block.VanillaNetBlock import VanillaBlock

2）修改def parse_model(d, ch): # model_dict, input_channels(3)

在源码基础上加入CSPStage

        if m in {Conv, AConv, ConvTranspose, Bottleneck, SPP, SPPF, DWConv, BottleneckCSP, nn.ConvTranspose2d, DWConvTranspose2d, SPPCSPC, ADown,RepNCSPELAN4, SPPELAN,VanillaBlock}:c1, c2 = ch[f], args[0]if c2 != no:  # if not outputc2 = make_divisible(c2 * gw, 8)args = [c1, c2, *args[1:]]if m in {BottleneckCSP, SPPCSPC}:args.insert(2, n)  # number of repeatsn = 1