1. 点乘与加法Attention原理

1.1 点乘Attention机制

1.1.1 点乘Attention定义

o 点乘Attention是将查询向量与键向量进行点乘操作，得到一个分数，再通过softmax函数进行归一化，得到权重，最后将权重与值向量相乘，得到加权的值向量，作为输出。

1.1.2 点乘Attention优势

o 点乘操作可以快速计算出查询向量与键向量之间的相似度，计算效率高，适合大规模数据处理。

1.1.3 点乘Attention局限

o 当查询向量和键向量的维度较高时，点乘结果可能会出现梯度消失或爆炸的问题，影响模型的训练效果。

1.2 加法Attention机制

1.2.1 加法Attention定义

o 加法Attention是将查询向量与键向量拼接后，通过一个全连接层进行非线性变换，得到一个分数，再通过softmax函数进行归一化，得到权重，最后将权重与值向量相乘，得到加权的值向量，作为输出。

1.2.2 加法Attention优势

o 加法Attention通过非线性变换可以更好地捕捉查询向量与键向量之间的复杂关系，对不同维度的向量具有更好的适应性。

1.2.3 加法Attention局限

o 加法Attention需要进行拼接和全连接层的计算，计算复杂度较高，训练速度相对较慢。

2. 计算复杂度对比

2.1 点乘Attention复杂度

2.1.1 时间复杂度

o 点乘Attention的时间复杂度为O(d)，其中d为向量的维度，计算效率高。

2.1.2 空间复杂度

o 点乘Attention的空间复杂度为O(1)，不需要额外的存储空间。

2.2 加法Attention复杂度

2.2.1 时间复杂度

o 加法Attention的时间复杂度为O(d^2)，其中d为向量的维度，计算复杂度较高。

2.2.2 空间复杂度

o 加法Attention的空间复杂度为O(d)，需要存储全连接层的权重参数。

3. 效果对比

3.1 点乘Attention效果

3.1.1 捕捉线性关系

o 点乘Attention能够快速捕捉查询向量与键向量之间的线性关系，对于简单的线性关系具有较好的效果。

3.1.2 高效处理大规模数据

o 点乘Attention计算效率高，适合处理大规模数据，能够快速得到结果。

3.1.3 梯度问题

o 在高维度情况下，点乘Attention可能会出现梯度消失或爆炸的问题，影响模型的训练效果。

3.2 加法Attention效果

3.2.1 捕捉复杂关系

o 加法Attention通过非线性变换可以更好地捕捉查询向量与键向量之间的复杂关系，对于复杂的非线性关系具有更好的效果。

3.2.2 适应不同维度向量

o 加法Attention对不同维度的向量具有更好的适应性，能够更好地处理不同维度的数据。

3.2.3 训练速度慢

o 加法Attention计算复杂度高，训练速度相对较慢，不适合大规模数据处理。

醋醋百科网

Good Luck To You!

10.Transformer计算attention的时候为何选择点乘而不是加法?