极大缩短resnet训练时间并达到极高准确率的一些tricks

2023-11-26 20:50

本文主要是介绍极大缩短resnet训练时间并达到极高准确率的一些tricks,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1、模型复杂度与泛化能力的关系
    • 2、DAWNBench
    • 3、Some Tricks
    • 4、实验效果
    • 5、展望

1、模型复杂度与泛化能力的关系

例如对于VGG而言,有11,13,16,19四种深度的模型对应着四种不同的模型复杂度,当然层数越多模型越复杂。大部分人一开始肯定会觉得模型越复杂它所具有的函数拟合能力越强,肯定效果会更好,理论上应该是这样的。但是对于那些追求极致泛化能力的人做了很多实验,发现可能这个结论并不是那么绝对,比如下面这张图

vgg.png

用VGG训练CIFAR-10达到94%的准确率已经很高了,但是这个最大值并不是出现在VGG19而是VGG13。

2、DAWNBench

斯坦福大学提出了DAWNbench,它是一种用于端到端深度学习的基准,用于在不同的优化策略、模型架构、软件框架、云和硬件条件下量化训练时间、训练成本、推理延迟和推理成本。下面我们主要来关注一下各路大神对于CIFAR-10数据集的效果

DAWN.png

第一名用了10s就将CIFAR-10的准确率训练到了94%以上,很惊人的结果。当然现阶段硬件上和别人是有差距的,他们用了8块TeslaV100,而我们现在用的云服务器只有1块TeslaM40,但是依然可以从这个结果上发现很多我们可以利用的地方。

  • 我们知道ResNet也有很多种(18,50,101…),但是他们这里用的是比原作者提出的最小的模型还要小的一个模型,其中一个参赛者提出的具体模型架构如下图(将下图保存在自己电脑上可以查看具体每一层的参数设置)。仅仅使用9层就达到了我自己之前做ResNet作业56层都达不到的一个效果。
  • 硬件虽然达不到别人的要求但是我们可以从他们的代码中学到一些快速训练的tricks,例如在他们训练中都用到了Cycle Learning Rate、大batch_size(512,768)、ReLU换成CELU、数据增强用到了Cutout…后面会展示实验对比。

3、Some Tricks

  • CLR(Cycle Learning Rate)第一次提出是在2017年的一篇WACV上,这个想法还是很新颖的。
clr.png

我们最开始接触深度学习的时候设置学习率可能会默认SGD设置为0.01,Adam设置为0.001;到了后来学的东西多了了解了一些scheduler可能就是从一个较大的lr开始随着epoch开始分段递减。但是这个文章给出了一种循环设置学习率的思想,他将学习率设置为周期变化,由小变大再由大变小,如下图所示

clr1.png

我自己复现了一下发现效果是有的,但是精度上不去很高,不过也有可能是因为我没有太理解作者这篇文章中三个超参数(max_lr,base_lr,stepsize)的设置方法,就不了了之了。

index.png

但是后来看到DAWNBench的各路大神们也用到了这个方法,就再一次聚焦到这个方法。但是有所不同的是DAWNBench里面用到这个方法没有让它循环很多次,而是一上一下就结束了(在后面的复现结果中会有展示)。

  • 用到CLR就会发现,max_lr设置的很大,所以致使batch_size很大(512,786),自己做实验最大设置过128,没想过这么大的batch_size。而且如果GPU核数够大batch_size越大时间越小,但是现在我们用的效果不明显因为已经超过最大负荷了,所以时间都一样,都是要排队的。
  • 将线性修正单元ReLU改为CELU,ReLU分段都是线性有折点,而CELU是全程非线性的并且无折点。
  • 数据增强用到了pytorch中不自带的Cutout功能,随机将一张图片的一小部分”遮挡“,需要自己写函数完成。

4、实验效果

  • 实验结果显示出有很大提升,之前完成VGG和ResNet作业跑100-300 epochs(快的话1-2 hours)才能达到的效果,运用上述方法在30 epochs(10 min)之内便可以达到93%左右的精度,并且如果GPU性能更好,在时间上节省会更多。
  • 在实验设置上比较了四种学习率的设置,第一个是应对768 batchsize的CLR学习率设置,第二个是应对512 batchsize的CLR学习率设置,第三个是我自己之前一直用的效果也很好的每三十个回合学习率减半的设置,第四个是最普通的恒定学习率。模型上对比了ResNet9和ResNet56的收敛时间。也对比了trick之间的影响。
resnet9.png

5、展望

  • 其实最近也在学习apex进行精度混合训练,将pytorch默认的32位运算变成16位和32位自动混合运算,精度不会下降很多但是可以极大减小训练时间,并且显存也能降低。但是现阶段云端服务器不支持tensorcore,希望疫情过后早日回归大家庭,冲冲冲!

这篇关于极大缩短resnet训练时间并达到极高准确率的一些tricks的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_44864049/article/details/106148601
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/426290

相关文章

Python日期和时间完全指南与实战

《Python日期和时间完全指南与实战》在软件开发领域,‌日期时间处理‌是贯穿系统设计全生命周期的重要基础能力,本文将深入解析Python日期时间的‌七大核心模块‌,通过‌企业级代码案例‌揭示最佳实践... 目录一、背景与核心价值二、核心模块详解与实战2.1 datetime模块四剑客2.2 时区处理黄金法

macOS Sequoia 15.5 发布: 改进邮件和屏幕使用时间功能

《macOSSequoia15.5发布:改进邮件和屏幕使用时间功能》经过常规Beta测试后,新的macOSSequoia15.5现已公开发布,但重要的新功能将被保留到WWDC和... MACOS Sequoia 15.5 正式发布!本次更新为 Mac 用户带来了一系列功能强化、错误修复和安全性提升,进一步增

Pandas进行周期与时间戳转换的方法

《Pandas进行周期与时间戳转换的方法》本教程将深入讲解如何在pandas中使用to_period()和to_timestamp()方法,完成时间戳与周期之间的转换,并结合实际应用场景展示这些方法的... 目录to_period() 时间戳转周期基本操作应用示例to_timestamp() 周期转时间戳基

JavaScript时间戳与时间的转化常用方法

《JavaScript时间戳与时间的转化常用方法》在JavaScript中,时间戳(Timestamp)通常指Unix时间戳,即从1970年1月1日00:00:00UTC到某个时间点经过的毫秒数,下面... 目录1. 获取当前时间戳2. 时间戳 → 时间对象3. 时间戳php → 格式化字符串4. 时间字符

Java controller接口出入参时间序列化转换操作方法(两种)

《Javacontroller接口出入参时间序列化转换操作方法(两种)》:本文主要介绍Javacontroller接口出入参时间序列化转换操作方法,本文给大家列举两种简单方法,感兴趣的朋友一起看... 目录方式一、使用注解方式二、统一配置场景:在controller编写的接口,在前后端交互过程中一般都会涉及

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Python的time模块一些常用功能(各种与时间相关的函数)

《Python的time模块一些常用功能(各种与时间相关的函数)》Python的time模块提供了各种与时间相关的函数,包括获取当前时间、处理时间间隔、执行时间测量等,:本文主要介绍Python的... 目录1. 获取当前时间2. 时间格式化3. 延时执行4. 时间戳运算5. 计算代码执行时间6. 转换为指

Java中字符串转时间与时间转字符串的操作详解

《Java中字符串转时间与时间转字符串的操作详解》Java的java.time包提供了强大的日期和时间处理功能,通过DateTimeFormatter可以轻松地在日期时间对象和字符串之间进行转换,下面... 目录一、字符串转时间(一)使用预定义格式(二)自定义格式二、时间转字符串(一)使用预定义格式(二)自

Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码

《Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码》:本文主要介绍Java中日期时间转换的多种方法,包括将Date转换为LocalD... 目录一、Date转LocalDateTime二、Date转LocalDate三、LocalDateTim

golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法

《golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法》:本文主要介绍golang获取当前时间、时间戳和时间字符串及它们之间的相互转换,本文通过实例代码给大家介绍的非常详细,感兴趣... 目录1、获取当前时间2、获取当前时间戳3、获取当前时间的字符串格式4、它们之间的相互转化上篇文章给大家介