Training - PyTorch Lightning 分布式训练的 global_step 参数 (accumulate_grad

Training - PyTorch Lightning 分布式训练的 global_step 参数 (accumulate_grad_batches)

本文主要是介绍Training - PyTorch Lightning 分布式训练的 global_step 参数 (accumulate_grad_batches)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://blog.csdn.net/caroline_wendy/article/details/137640653

PyTorch

在 PyTorch Lightning 中，pl.Trainer 的 accumulate_grad_batches 参数允许在执行反向传播和优化器步骤之前，累积多个批次的梯度。这样，可以增加有效的批次大小，而不会增加内存开销。例如，如果设置 accumulate_grad_batches=8，则会在执行优化器的 .step() 方法之前，累积 8 个批次的梯度。

accumulate_grad_batches 与 global_step 的关系：

global_step 会在每次调用优化器的 .step() 方法后递增。
使用梯度累积，global_step 增长小于批次(batch) 的数量
多个批次贡献到 1 个 global_step 的更新中。

例如，如果 accumulate_grad_batches=8，那么每 8 个批次，只会增加 1 次 global_step，如果多卡，则 global_step 表示单卡的次数。日志，如下：

[INFO] [CL] global_step: 0, iter_step: 8
[INFO] [CL] global_step: 1, iter_step: 16

其中 pl.Trainer 的源码：

    trainer = pl.Trainer(accelerator="gpu",# ...accumulate_grad_batches=args.accumulate_grad,strategy=strategy,  # 多机多卡配置num_nodes=args.num_nodes,  # 节点数devices=1,  # 每个节点 GPU 卡数)

输出日志：

log = {'epoch': self.trainer.current_epoch, 'step': self.trainer.global_step}
wandb.log(log)

这篇关于Training - PyTorch Lightning 分布式训练的 global_step 参数 (accumulate_grad_batches)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Training - PyTorch Lightning 分布式训练的 global_step 参数 (accumulate_grad_batches)

相关文章

Nginx分布式部署流程分析

Java 线程池+分布式实现代码

C#中通过Response.Headers设置自定义参数的代码示例

SpringBoot 获取请求参数的常用注解及用法

HTTP 与 SpringBoot 参数提交与接收协议方式

Redis实现分布式锁全过程

python中的显式声明类型参数使用方式

Go语言使用Gin处理路由参数和查询参数

Redis分布式锁中Redission底层实现方式

redis和redission分布式锁原理及区别说明