深度学习:关于损失函数的一些前置知识(PyTorch Loss)

2024-06-23 16:28

本文主要是介绍深度学习:关于损失函数的一些前置知识(PyTorch Loss),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在之前进行实验的时候发现:调用 Pytorch 中的 Loss 函数之前如果对其没有一定的了解,可能会影响实验效果和调试效率。以 CrossEntropyLoss 为例,最初设计实验的时候没有注意到该函数默认返回的是均值,以为是总和,于是最后计算完 Loss 之后,手动做了个均值,导致实际 Loss 被错误缩放,实验效果不佳,在后来 Debug 排除代码模型架构问题的时候才发觉这一点,着实花费了不少时间。

所以闲暇时准备写一下 Pytorch 中 Loss 函数相关的知识,希望能对初入深度学习的学子们有所帮助,少踩点坑。

这篇文章是用于后续理解的前置知识,在之后有提到新的专业名词时会进行补充。
文章大多以分类模型为例进行叙述。

文章目录

  • 什么是 Logits?
    • Logits 和 Softmax
  • 什么是 One-Hot 编码?
    • 类别不是整数怎么办?

什么是 Logits?

Logits 是指神经网络的最后一个线性层(全连接层)的未经过任何激活函数(例如 softmax 或 sigmoid)处理的输出,可以是任意实数,在分类的任务中,logits 通常是在进行多类别分类任务时的原始输出。

Logits 和 Softmax

在多类别分类问题中,logits 通常会被传递给 softmax 函数,softmax 函数将这些 logits 转换为概率分布:将任意实数的 logits 转换为 [0, 1] 之间的概率值,并且这些概率值的和为 1。

代码示例

为了更好地理解 logits 和 softmax 之间的关系,下面是一个简单的代码示例:

import torch
import torch.nn.functional as F# 样例:分类神经网络,便于对照理解
class Classifier(nn.Module):def __init__(self, input_size, hidden_size, num_classes=3):super(Classifier, self).__init__()self.fc1 = nn.Linear(input_size, hidden_size)  # 输入层到隐藏层self.fc2 = nn.Linear(hidden_size, num_classes)  # 隐藏层到输出层def forward(self, x):out = self.fc1(x)out = F.relu(out)  # ReLU 激活函数logits = self.fc2(out)  # 输出层,不经过 softmaxreturn logits# 假设这是分类神经网络的输出 logits
logits = torch.tensor([[2.0, 1.0, 0.1], [1.0, 3.0, 0.2]])# 使用 softmax 函数将 logits 转换为概率分布
probabilities = F.softmax(logits, dim=1)print("Logits:")
print(logits)
print("\nProbabilities after applying softmax:")
print(probabilities)
>>> Logits:
>>> tensor([[2.0000, 1.0000, 0.1000],
>>>         [1.0000, 3.0000, 0.2000]])>>> Probabilities after applying softmax:
>>> tensor([[0.6590, 0.2424, 0.0986],
>>>         [0.1131, 0.8360, 0.0508]])

输出解释

  1. Logits: [[2.0, 1.0, 0.1], [1.0, 3.0, 0.2]] 是神经网络的输出,未经过 softmax 处理。
  2. Softmax: softmax 函数将 logits 转换为概率分布,每个分布的概率值和为 1。

什么是 One-Hot 编码?

初入深度学习领域的人大多都会有这个疑问:这些所说的类别,究竟是怎么表示成向量的?

One-Hot 是一个很直观的形容,但我当时看到并猜测到相应概念的时候,还是不敢确定,因为太直白了,总觉得编码成向量的过程应该没有这么简单,然而 One-Hot 就是如此,深度学习不是一蹴而就的,看似复杂的概念最初也是由一个个直白的想法发展得来。

具体来说,One-Hot 编码对于每个类别,使用一个与类别数相同长度二进制向量,每个位置对应一个类别。其中,只有一个位置的值为 1(这就是 “One-Hot” 的含义),表示属于该类别,其余位置的值为 0。

例如,对于三个类别的分类问题(类别 A、B 和 C),使用 One-Hot 编码可得:

  • 类别 A: [1, 0, 0]
  • 类别 B: [0, 1, 0]
  • 类别 C: [0, 0, 1]

代码示例

import torch# 假设我们有三个类别:0, 1, 2
num_classes = 3# 样本标签
labels = torch.tensor([0, 2, 1, 0])# 将标签转换为 One-Hot 编码
one_hot_labels = torch.nn.functional.one_hot(labels, num_classes)print("Labels:")
print(labels)
print("\nOne-Hot Encoded Labels:")
print(one_hot_labels)
>>> Labels:
>>> tensor([0, 2, 1, 0])>>> One-Hot Encoded Labels:
>>> tensor([[1, 0, 0],
>>>         [0, 0, 1],
>>>         [0, 1, 0],
>>>         [1, 0, 0]])

输出解释

  1. Labels: [0, 2, 1, 0] 是我们初始的类别标签。
  2. One-Hot Encoded Labels: [[1, 0, 0], [0, 0, 1], [0, 1, 0], [1, 0, 0]] 是将标签转换为 One-Hot 编码后的结果。每个向量中只有一个位置的值为 1(One-Hot)。

类别不是整数怎么办?

看了代码示例,可能会有一个疑问:类别大多不会是整数而是字符,应该怎么编码?或许你心中已经有了一个很直白的答案:那就做一个映射,将类别用整数编码,然后再将这些整数标签转换为 One-Hot 编码。

的确可以这样。

代码示例

import torch# 类别映射:A -> 0, B -> 1, C -> 2
category_map = {'A': 0, 'B': 1, 'C': 2}# 样本类别标签
labels = ['A', 'C', 'B', 'A']# 将类别标签转换为整数标签
integer_labels = torch.tensor([category_map[label] for label in labels])# 将整数标签转换为 One-Hot 编码
num_classes = len(category_map)
one_hot_labels = torch.nn.functional.one_hot(integer_labels, num_classes)print("Labels:")
print(labels)
print("\nInteger Labels:")
print(integer_labels)
print("\nOne-Hot Encoded Labels:")
print(one_hot_labels)
>>> Labels:
>>> ['A', 'C', 'B', 'A']>>> Integer Labels:
>>> tensor([0, 2, 1, 0])>>> One-Hot Encoded Labels:
>>> tensor([[1, 0, 0],
>>>         [0, 0, 1],
>>>         [0, 1, 0],
>>>         [1, 0, 0]])

解释

  1. Labels: ['A', 'C', 'B', 'A'] 是我们初始的类别标签。
  2. Integer Labels: [0, 2, 1, 0] 是将类别标签映射到整数后的结果。A 对应 0,B 对应 1,C 对应 2。
  3. One-Hot Encoded Labels: [[1, 0, 0], [0, 0, 1], [0, 1, 0], [1, 0, 0]] 是将整数标签转换为 One-Hot 编码后的结果。每个向量中只有一个位置的值为 1,表示该样本的类别,其余位置的值为 0。

这篇关于深度学习:关于损失函数的一些前置知识(PyTorch Loss)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1087670

相关文章

Python中help()和dir()函数的使用

《Python中help()和dir()函数的使用》我们经常需要查看某个对象(如模块、类、函数等)的属性和方法,Python提供了两个内置函数help()和dir(),它们可以帮助我们快速了解代... 目录1. 引言2. help() 函数2.1 作用2.2 使用方法2.3 示例(1) 查看内置函数的帮助(

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷

Python中bisect_left 函数实现高效插入与有序列表管理

《Python中bisect_left函数实现高效插入与有序列表管理》Python的bisect_left函数通过二分查找高效定位有序列表插入位置,与bisect_right的区别在于处理重复元素时... 目录一、bisect_left 基本介绍1.1 函数定义1.2 核心功能二、bisect_left 与

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

java中BigDecimal里面的subtract函数介绍及实现方法

《java中BigDecimal里面的subtract函数介绍及实现方法》在Java中实现减法操作需要根据数据类型选择不同方法,主要分为数值型减法和字符串减法两种场景,本文给大家介绍java中BigD... 目录Java中BigDecimal里面的subtract函数的意思?一、数值型减法(高精度计算)1.

C++/类与对象/默认成员函数@构造函数的用法

《C++/类与对象/默认成员函数@构造函数的用法》:本文主要介绍C++/类与对象/默认成员函数@构造函数的用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录名词概念默认成员函数构造函数概念函数特征显示构造函数隐式构造函数总结名词概念默认构造函数:不用传参就可以

Pytorch介绍与安装过程

《Pytorch介绍与安装过程》PyTorch因其直观的设计、卓越的灵活性以及强大的动态计算图功能,迅速在学术界和工业界获得了广泛认可,成为当前深度学习研究和开发的主流工具之一,本文给大家介绍Pyto... 目录1、Pytorch介绍1.1、核心理念1.2、核心组件与功能1.3、适用场景与优势总结1.4、优

C++类和对象之默认成员函数的使用解读

《C++类和对象之默认成员函数的使用解读》:本文主要介绍C++类和对象之默认成员函数的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、默认成员函数有哪些二、各默认成员函数详解默认构造函数析构函数拷贝构造函数拷贝赋值运算符三、默认成员函数的注意事项总结一