什么是交叉熵(Cross Entropy)_交叉熵的定义-技术文章-醋醋百科网

一句话总结

交叉熵（Cross Entropy）是一种常用的损失函数，用来衡量模型预测的概率分布与真实分布之间的差距，广泛应用于分类问题。

交叉熵是衡量模型预测概率分布与真实分布差异的“误差尺”，通过惩罚错误预测的置信度，指导模型高效学习正确分类

一、基础概念：什么是交叉熵？

交叉熵，本质上是用来比较两个概率分布有多“接近”的一种数学方法。
在机器学习和深度学习中，交叉熵常被用作分类任务的损失函数，帮助模型判断“预测得准不准”。

老师批改选择题：

二、交叉熵的公式和含义

1. 二分类交叉熵公式

对于二分类问题（比如判断图片是猫还是不是猫）：

Cross Entropy=-[y·log(y^)+(1-y)·log(1-y^)]Cross Entropy=-[y·log(y^)+(1-y)·log(1-y^)]

2. 多分类交叉熵公式

对于多分类问题（比如识别猫、狗、鸟）：

Cross Entropy=-∑i=1Nyi·log(y^i)Cross Entropy=-∑i=1Nyi·log(y^i)

3. 物理意义

三、实例计算（多分类）

对比结论 → 错误越自信，损失值越大！

四、为什么用交叉熵？

1.梯度优势：错误越大，学习信号越强

2.与KL散度的关系

graph LR
    A[KL散度] -->|衡量分布差异| B[交叉熵]
    B --> C[交叉熵 = KL散度 + 真实分布熵]
    C --> D[固定真实分布时，最小化交叉熵 ≡ 最小化KL散度]

术语解释：KL散度：衡量两个分布的差异（非对称性，D(p||q) ≠ D(q||p)）。熵：真实分布的不确定性（固定值，如one-hot的熵=0）。
结论：分类任务中，交叉熵 = KL散度（因H(p)=0），直接推动预测分布逼近真实分布

五、图示帮助理解

上图：模型预测和真实标签通过交叉熵计算差距，损失值指导模型学习。

醋醋百科网