binary_cross_entropy和binary_cross_entropy_with_logits的区别

2023-10-07 05:20

本文主要是介绍binary_cross_entropy和binary_cross_entropy_with_logits的区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

binary_cross_entropy和binary_cross_entropy_with_logits的区别

引言

二分类问题是常见的机器学习任务之一,其目标是将样本分为两个类别。为了训练一个二分类模型,通常使用交叉熵作为损失函数。

二分类交叉熵损失函数有两种不同的形式,分别是 binary_cross_entropy_with_logitsbinary_cross_entropy。在 PyTorch 中,这两种损失函数都是可用的,它们的区别在于输入的形式不同,以及它们分别是在什么情况下使用更合适

在这里插入图片描述

无论生活中发生什么,你都可以选择快乐。
悲伤从来都不是一种选择。
快乐的关键是要知道你可以控制你接受什么和放弃什么。

主要区别与说明

binary_cross_entropy_with_logits 通常用于二元分类问题,其中每个样本都只属于两个类别之一。此损失函数的输入应该是模型的预测值和真实标签,通常是使用sigmoid函数将最终的输出值转换为概率值。

binary_cross_entropy 也是用于二元分类问题的损失函数,但其输入应该是模型的预测值和真实标签的概率值。因此,在使用此损失函数时,需要将模型的输出值使用sigmoid函数转换为概率值,然后再将其与真实标签进行比较。

总之,binary_cross_entropy_with_logits 适用于模型输出未经过概率变换的情况,而 binary_cross_entropy 适用于模型输出已经是概率值的情况。

实例说明

以下是一个基于PyTorch的实例,展示如何使用两种损失函数:

import torch
import torch.nn as nn# 创建一个样例数据
y_true = torch.Tensor([1, 0, 1, 1])
y_pred = torch.Tensor([0.9, 0.1, 0.8, 0.7])# 使用binary_cross_entropy_with_logits计算损失函数
loss_logits = nn.BCEWithLogitsLoss()(y_pred, y_true)
print("loss with logits:", loss_logits)# 错误示例
loss_sigmoid_error = nn.BCELoss()(y_pred, y_true)
print("注意:错误示例 loss with sigmoid_error:", loss_sigmoid_error)  # !!!注意:可以直接计算,但是这样的计算式错误的# 使用binary_cross_entropy计算损失函数
y_pred_sigmoid = torch.sigmoid(y_pred)
print("y_pred_sigmoid:", y_pred_sigmoid)
loss_sigmoid = nn.BCELoss()(y_pred_sigmoid, y_true)
print("loss with sigmoid:", loss_sigmoid)

运行输出如下:

loss with logits: tensor(0.4650)
注意:错误示例 loss with sigmoid_error: tensor(0.1976)
y_pred_sigmoid: tensor([0.7109, 0.5250, 0.6900, 0.6682])
loss with sigmoid: tensor(0.4650)

其中,使用nn.BCEWithLogitsLoss()函数计算binary_cross_entropy_with_logits损失函数,而使用nn.BCELoss()函数计算binary_cross_entropy损失函数。在实际使用中,建议优先使用binary_cross_entropy_with_logits损失函数。

总结

binary_cross_entropy_with_logitsbinary_cross_entropy 两者都是用于二分类问题中的损失函数。它们的主要区别在于输入的形式以及计算方式。

binary_cross_entropy_with_logits的输入是网络输出的logits(未经sigmoid函数激活的),并且该函数会自动进行sigmoid函数激活处理。而binary_cross_entropy的输入是经过sigmoid函数激活的概率值。因此使用binary_cross_entropy_with_logits会更加方便且稳定,因为它可以避免数值计算溢出的情况。

这里的logits指的是,该损失函数已经内部自带了计算logit的操作,无需在传入给这个loss函数之前手动使用sigmoid/softmax将之前网络的输入映射到[0,1]之间。事实上,官方是推荐使用函数带有with_logits的,解释是
This loss combines a Sigmoid layer and the BCELoss in one single class. This version is more numerically stable than using a plain Sigmoid followed by a BCELoss as, by combining the operations into one layer, we take advantage of the log-sum-exp trick for numerical stability.
翻译一下就是说将sigmoid层和binaray_cross_entropy合在一起计算比分开依次计算有更好的数值稳定性,这主要是运用了log-sum-exp技巧。
在这里插入图片描述

reference

@misc{BibEntry2023Oct,
title = {{pytorch损失函数binary{ _ \_ _}cross{ _ \_ _}entropy和binary{ _ \_ _}cross{ _ \_ _}entropy{ _ \_ _}with{ _ \_ _}logits的区别-CSDN博客}},
year = {2023},
month = oct,
urldate = {2023-10-06},
language = {chinese},
note = {[Online; accessed 6. Oct. 2023]},
url = {https://blog.csdn.net/u010630669/article/details/105599067}
}

这篇关于binary_cross_entropy和binary_cross_entropy_with_logits的区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/156296

相关文章

一文带你迅速搞懂路由器/交换机/光猫三者概念区别

《一文带你迅速搞懂路由器/交换机/光猫三者概念区别》讨论网络设备时,常提及路由器、交换机及光猫等词汇,日常生活、工作中,这些设备至关重要,居家上网、企业内部沟通乃至互联网冲浪皆无法脱离其影响力,本文将... 当谈论网络设备时,我们常常会听到路由器、交换机和光猫这几个名词。它们是构建现代网络基础设施的关键组成

redis和redission分布式锁原理及区别说明

《redis和redission分布式锁原理及区别说明》文章对比了synchronized、乐观锁、Redis分布式锁及Redission锁的原理与区别,指出在集群环境下synchronized失效,... 目录Redis和redission分布式锁原理及区别1、有的同伴想到了synchronized关键字

JAVA覆盖和重写的区别及说明

《JAVA覆盖和重写的区别及说明》非静态方法的覆盖即重写,具有多态性;静态方法无法被覆盖,但可被重写(仅通过类名调用),二者区别在于绑定时机与引用类型关联性... 目录Java覆盖和重写的区别经常听到两种话认真读完上面两份代码JAVA覆盖和重写的区别经常听到两种话1.覆盖=重写。2.静态方法可andro

C++中全局变量和局部变量的区别

《C++中全局变量和局部变量的区别》本文主要介绍了C++中全局变量和局部变量的区别,全局变量和局部变量在作用域和生命周期上有显著的区别,下面就来介绍一下,感兴趣的可以了解一下... 目录一、全局变量定义生命周期存储位置代码示例输出二、局部变量定义生命周期存储位置代码示例输出三、全局变量和局部变量的区别作用域

MyBatis中$与#的区别解析

《MyBatis中$与#的区别解析》文章浏览阅读314次,点赞4次,收藏6次。MyBatis使用#{}作为参数占位符时,会创建预处理语句(PreparedStatement),并将参数值作为预处理语句... 目录一、介绍二、sql注入风险实例一、介绍#(井号):MyBATis使用#{}作为参数占位符时,会

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

《Androidkotlin中Channel和Flow的区别和选择使用场景分析》Kotlin协程中,Flow是冷数据流,按需触发,适合响应式数据处理;Channel是热数据流,持续发送,支持... 目录一、基本概念界定FlowChannel二、核心特性对比数据生产触发条件生产与消费的关系背压处理机制生命周期

Javaee多线程之进程和线程之间的区别和联系(最新整理)

《Javaee多线程之进程和线程之间的区别和联系(最新整理)》进程是资源分配单位,线程是调度执行单位,共享资源更高效,创建线程五种方式:继承Thread、Runnable接口、匿名类、lambda,r... 目录进程和线程进程线程进程和线程的区别创建线程的五种写法继承Thread,重写run实现Runnab

C++中NULL与nullptr的区别小结

《C++中NULL与nullptr的区别小结》本文介绍了C++编程中NULL与nullptr的区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编... 目录C++98空值——NULLC++11空值——nullptr区别对比示例 C++98空值——NUL

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v

Go语言中make和new的区别及说明

《Go语言中make和new的区别及说明》:本文主要介绍Go语言中make和new的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1 概述2 new 函数2.1 功能2.2 语法2.3 初始化案例3 make 函数3.1 功能3.2 语法3.3 初始化