深入理解交叉熵损失 CrossEntropyLoss

本文主要是介绍深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计

flyfish

下面有详细的例子和公式的说明。

最大似然估计的概念

最大似然估计是一种统计方法，用来估计模型参数，使得在这些参数下观测到的数据出现的概率（即似然）最大。

具体步骤

定义似然函数：

给定一个参数化的概率模型 $P(X|\theta)$ ，其中 $\theta$ 是模型的参数， $X$ 是观测数据。
似然函数 $L(\theta|X)$ 表示在参数 $\theta$ 下，观测数据 $X$ 出现的概率。

计算似然函数：

对于独立同分布的数据集 $\{x_1, x_2, \ldots, x_n\}$ ，似然函数是各数据点概率的乘积：
$L(\theta | X) = P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta)$

取对数得到对数似然函数：

为了简化计算，通常取似然函数的对数，即对数似然函数：
$\log L(\theta | X) = \sum_{i=1}^{n} \log P(x_i|\theta)$

最大化对数似然函数：

找到使对数似然函数最大的参数 $\theta$ ：
$\hat{\theta} = \arg\max_{\theta} \log L(\theta | X)$

似然函数的定义

假设我们有一个概率模型 $P(X|\theta)$ ，其中 $\theta$ 是模型的参数， $X$ 是观测数据。似然函数 $L(\theta | X)$ 表示在参数 $\theta$ 下，观测数据 $X$ 出现的概率。

对于独立同分布的数据

如果我们有独立同分布的数据集 $\{x_1, x_2, \ldots, x_n\}$ ，似然函数是各数据点概率的乘积：

$L(\theta | X) = P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta)$

公式拆解

$L(\theta | X)$ ：似然函数，表示参数 $\theta$ 给定的情况下，观测数据 $X$ 出现的概率。
$\theta$ ：模型参数，我们希望估计的未知量。
$X$ ：观测数据的集合。
$\{x_1, x_2, \ldots, x_n\}$ ：独立同分布的观测数据点。
$P(X|\theta)$ ：观测数据 $X$ 在参数 $\theta$ 下的联合概率。
$\prod_{i=1}^{n}$ ：从 1 到 $n$ 的乘积符号，表示对所有数据点的概率进行乘积。
$P(x_i|\theta)$ ：单个数据点 $x_i$ 在参数 $\theta$ 下的概率。

对数似然函数

为了简化计算，通常我们对似然函数取对数，得到对数似然函数：

$\log L(\theta | X) = \sum_{i=1}^{n} \log P(x_i|\theta)$

公式拆解

$\log L(\theta | X)$ ：对数似然函数。
$\sum_{i=1}^{n}$ ：从 1 到 $n$ 的求和符号，表示对所有数据点的对数概率求和。
$\log P(x_i|\theta)$ ：单个数据点 $x_i$ 在参数 $\theta$ 下的对数概率。

举例说明：投掷硬币

假设我们投掷硬币10次，结果是6次正面朝上，我们希望估计硬币正面朝上的概率 $p$ 。

定义似然函数

对于二项分布，似然函数为：

$\binom{10}{6} p^6 (1-p)^4$

公式拆解

$L (p ∣ X)$ ：似然函数，表示在正面概率为 $p$ 的情况下，观测到6次正面和4次反面的概率。
$\binom{10}{6}$ ：组合数，表示从10次投掷中选择6次正面的组合数。
$p^6$ ：正面出现6次的概率。
$1-p)^4$ ：反面出现4次的概率。

对数似然函数

对似然函数取对数：

$\log L(p | X) = \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p)$

最大化对数似然函数

通过求导数并设为0，可以找到使对数似然函数最大的参数 $p$ ：

$\frac{d}{dp} \log L(p | X) = \frac{6}{p} - \frac{4}{1-p} = 0$

解这个方程得到：

$\frac{6}{p} = \frac{4}{1-p}$
$6 (1 - p) = 4 p$
$6 - 6 p = 4 p$
$6 = 10 p$
$\frac{6}{10} = 0.6$

代码

import numpy as np
from scipy.optimize import minimize# 定义对数似然函数，加入小偏移量避免除零错误
def log_likelihood(p, data, epsilon=1e-10):n = len(data)k = np.sum(data)p = np.clip(p, epsilon, 1 - epsilon)  # 确保 p 在 (epsilon, 1 - epsilon) 之间return -(k * np.log(p) + (n - k) * np.log(1 - p))# 模拟数据：10次投掷，6次正面朝上
data = [1] * 6 + [0] * 4# 最大化对数似然函数
result = minimize(log_likelihood, x0=[0.5], args=(data), bounds=[(0, 1)])
p_hat = result.x[0]
print(f'Estimated probability of heads: {p_hat}')
Estimated probability of heads: 0.5999999961321424

最大化对数似然函数与最小化负对数似然函数在本质上是一样的。它们都是为了找到模型参数，使得观测数据在模型下的概率最大化。让我们详细解释一下这个关系。

对数似然函数

首先，我们有似然函数 $L(\theta | X)$ ，表示在参数 $\theta$ 下，观测数据 $X$ 出现的概率。为了简化计算，通常我们对似然函数取对数，得到对数似然函数：

$\log L(\theta | X)$

最大化对数似然函数就是找到参数 $\theta$ ，使得 $\log L(\theta | X)$ 最大化：

$\hat{\theta} = \arg\max_{\theta} \log L(\theta | X)$

负对数似然函数

负对数似然函数是对数似然函数取负号：

$-\log L(\theta | X)$

最小化负对数似然函数就是找到参数 $\theta$ ，使得 $-\log L(\theta | X)$ 最小化：

$\hat{\theta} = \arg\min_{\theta} -\log L(\theta | X)$

等价关系

最大化对数似然函数和最小化负对数似然函数在数学上是等价的。因为一个数的负数和这个数的大小关系相反，所以在求极值时：

$\arg\max_{\theta} \log L(\theta | X) = \arg\min_{\theta} -\log L(\theta | X)$

例子：投掷硬币

假设我们有10次投掷硬币的结果，6次正面朝上，我们希望估计正面朝上的概率 $p$ 。

对数似然函数：
$\log L(p | X) = \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p)$
最大化对数似然函数：

$\hat{p} = \arg\max_{p} \left[ \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p) \right]$

负对数似然函数：
$-\log L(p | X) = -\log \left( \binom{10}{6} \right) - 6 \log(p) - 4 \log(1-p)$
最小化负对数似然函数：

$\hat{p} = \arg\min_{p} \left[ -\log \left( \binom{10}{6} \right) - 6 \log(p) - 4 \log(1-p) \right]$

这篇关于深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计

深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计

最大似然估计的概念

具体步骤

似然函数的定义

对于独立同分布的数据

公式拆解

对数似然函数

公式拆解

举例说明：投掷硬币

定义似然函数

公式拆解

对数似然函数

最大化对数似然函数

代码

对数似然函数

负对数似然函数

等价关系

例子：投掷硬币

相关文章

深入理解Mysql OnlineDDL的算法

深入解析C++ 中std::map内存管理

深入理解go中interface机制

深入解析Java NIO在高并发场景下的性能优化实践指南

Java Spring的依赖注入理解及@Autowired用法示例详解

深入理解Go语言中二维切片的使用

从原理到实战深入理解Java 断言assert

一文深入详解Python的secrets模块

Go学习记录之runtime包深入解析

深入解析 Java Future 类及代码示例