醋醋百科网

Good Luck To You!

姚期智团队开源新型注意力,节省90%内存不降性能

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

新型注意力机制

DeepSeek发布新研究成果 : 稀疏注意力机制,全文解读版来啦!

DeepSeek新论文来啦!这篇文章在X(推特)上一经发布就引起了巨大轰动~

大模型中常用的注意力机制GQA详解以及Pytorch代码实现

分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。

这篇文章中,我们将解释GQA的思想以及如何将其转化为代码。

GQA是在论文 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints paper.中提出,这是一个相当简单和干净的想法,并且建立在多头注意力之上。

DeepSeek NSA注意力机制技术拆解:重新定义长文本建模效率

2025年2月18日,DeepSeek团队发布了原生稀疏注意力机制(Native Sparse Attention,NSA)

耶鲁揭示自注意力结构的上下文学习机制,证明梯度流算法的收敛性

众所周知,目前的大模型大多基于 Transformer 架构。Transformer 的核心结构是多头自注意力模型(multi-head self-attention model)。

文本引导注意力在视觉-语言模型零样本鲁棒性中的关键作用

本文约3000字,建议阅读10+分钟本文作者发现对抗攻击会导致文本引导注意力的偏移。


deepseek推出稀疏注意力机制,进一步降低大模型的训练成本

这篇论文介绍了一种名为NSA(Natively Sparse Attention)的新型稀疏注意力机制,旨在提高长上下文建模的效率,同时保持模型的性能。

1. 研究背景:问题:长上下文建模对于下一代语言模型至关重要,但标准的注意力机制由于其高计算成本而带来了显著的挑战。难点:现有的稀疏注意力方法在实际部署中往往未能实现预期的加速效果,主要因为它们在推理阶段有效,但在训练阶段缺乏支持。相关工作:现有的稀疏注意力方法包括KV缓存驱逐方法、基于块的选择方法和采样、聚类或哈希选择方法,但这些方法在实际应用中存在局限性。

大模型入门-day9-位置编码与多头注意力

以下是基于你提供的信息生成的第9天学习任务的完整描述:


第 9 天:位置编码与多头注意力(5 小时)

大模型入门-day8-自注意力机制详解

以下是“第 8 天:自注意力机制详解”的详细学习计划,专注于理解 Transformer 中的自注意力(Self-Attention)机制。学习时长为 5 小时,适合在第 6-7 天微调 BERT 的实践基础上,深入掌握其核心技术——自注意力。计划包括理论学习、数学推导和动手计算,确保从概念到实践全面理解。


第 8 天学习计划:自注意力机制详解(5 小时)

撞车DeepSeek NSA,Kimi杨植麟署名的新注意力架构MoBA发布

机器之心报道

机器之心编辑部

<< < 90 91 92 93 94 95 96 97 98 99 > >>
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言