醋醋百科网

Good Luck To You!

自注意力机制是特征数据相关性计算,主要用到矩阵乘法

有人质疑、嘲讽和挖苦我先前一篇短文说的神经网络大量计算就是矩阵乘法、大模型就是统计模型,但又不提供具体的反例证据,那我就借用别人总结的大模型核心算法-自注意力机制图(类似的图网上有很多)简单解释回应一下:


图中的方块都表示为矩阵,Q、K、V都是X矩阵和相应的权重矩阵相乘而来,再经过Q、K矩阵相乘,归一化处理得到P矩阵,最后P、V矩阵相乘,得到注意力得分矩阵。是否多数时间在进行矩阵乘法运算?
在处理文本生成时,X矩阵的x1,x2,x3,...就是文本句子中各个位置的词向量,Z就是各个词向量间相关性的矩阵;
在处理图像生成时,X矩阵的x1,x2,x3,...就是图象中各个位置小块图象的像素向量,Z就是各个像素向量间相关性的矩阵。
相关性分析就是个统计分析方法。

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言