逐行讲解Transformer的代码实现和原理讲解：计算交叉熵损失

本文主要是介绍逐行讲解Transformer的代码实现和原理讲解：计算交叉熵损失，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

LLM模型：Transformer代码实现和原理讲解：前馈神经网络_哔哩哔哩_bilibili

1 计算交叉熵目的

计算 loss = F.cross_entropy(input=linear_predictions_reshaped, target=targets_reshaped) 的目的是为了评估模型预测结果与实际标签之间的差距，并提供一个量化指标，用于指导模型的训练过程。具体来说，交叉熵损失函数（Cross Entropy Loss）在多分类问题中非常常用，因为它能够有效地衡量模型预测的概率分布与真实标签之间的差异。

交叉熵损失的目的：

评估模型性能：
- 交叉熵损失给出了一种度量模型预测结果与真实标签之间差异的方法。较低的损失值意味着模型的预测更加接近真实标签，较高的损失值则意味着模型的预测误差较大。
梯度下降优化：
- 在训练过程中，交叉熵损失提供了关于模型参数调整方向的梯度信息。通过反向传播算法，这些梯度被用来更新模型的权重，以最小化损失函数。

为什么需要重塑张量：

在处理序列数据时，例如在自然语言处理任务中，通常会遇到多个样本（Batch Size），每个样本又包含多个时间步（Sequence Length）。因此，原始的预测张量和标签张量可能会有三个维度：

linear_predictions 的形状可能是 (batch_size, sequence_length, number_of_classes)。
target_label 的形状可能是 (batch_size, sequence_length) 或者 (batch_size, sequence_length, 1)。

为了能够使用标准的交叉熵损失函数，需要将这些张量重新塑形为二维形式：