什么是梯度消失?_什么是梯度消失和梯度爆炸-技术文章-醋醋百科网

一句话总结

梯度消失是指在深层神经网络训练过程中，反向传播时梯度逐层变小，导致前面层几乎学不到东西，模型难以有效训练。

一、基础概念：什么是梯度？

在神经网络中，梯度指的是损失函数对模型参数的导数。
简单来说，梯度告诉我们“参数应该往哪个方向调整，才能让模型表现更好”。

二、什么是梯度消失？

梯度消失（Vanishing Gradient），是指在深层神经网络中，反向传播时，梯度在逐层传递过程中不断变小，最后靠近于零。

结果：前面（靠近输入层）的参数几乎得不到有效更新，模型难以学习到有用的特征。
常见于：深层前馈神经网络、RNN（循环神经网络）等。
想象一条长长的灌溉渠：
水源（输出层误差）流经多个闸门（网络层）；
若每个闸门只允许10%的水通过（梯度衰减），末端水流充足（深层权重更新快），但源头几乎没水（浅层不更新）→ 农田（输入特征）得不到灌溉
为什么重要？
深层网络的致命伤：现代AI模型（如GPT、ResNet）往往几十甚至上百层，梯度消失会导致浅层无法学习基础特征（如边缘、纹理），模型性能大幅下降

三、梯度消失是怎么发生的？

1. 反向传播机制

神经网络训练时，采用反向传播算法，从输出层往输入层逐层计算梯度。

2. 激活函数的影响

常用的激活函数（如 Sigmoid、Tanh）在输入很大或很小时，导数（梯度）会变得非常小。

3. 多层相乘

梯度在每一层都会被“缩小”一点，层数越多，梯度就越小，最后几乎消失。

四、梯度消失的危害

五、如何缓解梯度消失？

六、图示帮助理解

上图：梯度在层层传递过程中逐渐变小，导致前面层难以学习。

七、总结

梯度消失是深层网络的“信号衰减症”，根源在链式法则的连乘效应。掌握 “激活函数+初始化+结构设计” 的解决方案，是理解现代AI模型（如Transformer、ResNet）训练的关键！

醋醋百科网