2025年06月04日

用通俗的话理解AI专业术语——什么是多头注意力机制

自从Deepseek横空出世以来，人们会情不自禁地拿Deepseek和ChatGPT作比较。看两者到底有何不同。

那么在模型架构和工资机制比较上，有一个术语，非常不容易理解，就是ChatGPT的Transformer模型架构中的

2025年06月04日

自注意力机制是特征数据相关性计算，主要用到矩阵乘法

有人质疑、嘲讽和挖苦我先前一篇短文说的神经网络大量计算就是矩阵乘法、大模型就是统计模型，但又不提供具体的反例证据，那我就借用别人总结的大模型核心算法-自注意力机制图（类似的图网上有很多）简单解释回应一下：

图中的方块都表示为矩阵，Q、K、V都是X矩阵和相应的权重矩阵相乘而来，再经过Q、K矩阵相乘，归一化处理得到P矩阵，最后P、V矩阵相乘，得到注意力得分矩阵。是否多数时间在进行矩阵乘法运算？

2025年06月04日

注意力机制作用被高估了?来自苹果等机构新研究

萧箫发自凹非寺
量子位 | 公众号 QbitAI

要说Transformer的核心亮点，当然是注意力机制

2025年06月04日

通过7个版本的attention的变形，搞懂transformer多头注意力机制

——1——

2025年06月04日

ASTGCN:基于时空注意力机制的图卷积神经网络

文章信息

《Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting》，收录于国际人工智能会议（AAAI-2019），作者是北京交通大学的郭晟楠，宋超，冯宁，以及林友芳、万怀宇老师。

论文下载地址：
https://aaai.org/ojs/index.php/AAAI/article/download/3881/3759

2025年06月04日

清华团队提出微缩版FP4注意力机制，以即插即用方式加速推理

近日，清华大学团队打造了首个用于推理加速的微缩版 FP4 注意力机制——SageAttention3，在英伟达 RTX5090 上实现了 1038TOPS 的计算性能。

2025年06月04日

“AI”科普丨一文读懂自注意力机制:8大步骤图解+代码

转自新机器视觉

醋醋百科网

Good Luck To You!

用通俗的话理解AI专业术语——什么是多头注意力机制

自注意力机制是特征数据相关性计算，主要用到矩阵乘法

注意力机制作用被高估了?来自苹果等机构新研究

通过7个版本的attention的变形，搞懂transformer多头注意力机制

ASTGCN:基于时空注意力机制的图卷积神经网络

文章信息

清华团队提出微缩版FP4注意力机制，以即插即用方式加速推理

“AI”科普丨一文读懂自注意力机制:8大步骤图解+代码