RAG 替代方案:无需检索，重新思考知识任务的缓存增强生成 (CAG)-技术文章-醋醋百科网

总结
检索增强生成改变了游戏规则，使 LLM 能够动态整合外部知识。这并不是说它没有带来任何挑战，它确实带来了挑战：检索延迟、系统复杂性和文档选择中的潜在错误。当前的研究重点是这些。CAG（缓存增强生成）不是按需获取信息，而是将所有相关文档预加载到LLM 的长上下文窗口中，并预先计算键值 (KV) 缓存。这消除了推理过程中检索的需要，使系统更快、更简单、更高效。让我们了解更多细节。

主要贡献

建议的范式：缓存增强生成 (CAG)：本文介绍了 CAG 作为检索增强生成 (RAG) 的替代方案。CAG 不是动态检索外部知识，而是将所有必要的文档预加载到大型语言模型 (LLM) 的扩展上下文中，并预先计算其键值 (KV) 缓存以实现高效推理。
应对 RAG 挑战： CAG 消除了检索延迟，避免了文档选择中的潜在错误，并降低了与组合检索和生成组件相关的架构复杂性。
性能比较和见解：实验表明，当知识库有限且易于管理时，CAG 在准确性和效率方面优于 RAG。CAG 还简化了知识密集型任务的工作流程。

新颖点

消除检索步骤：与依赖实时检索的 RAG 系统不同，CAG 利用长上下文 LLM 不断增长的上下文功能在单次推理过程中处理所有相关文档。
高效的 KV 缓存预加载：预先计算 KV 缓存可以实现更快的推理，并避免即时处理参考文本，这是 RAG 系统中的一个重要瓶颈。
简化的系统架构：通过移除检索器模块，CAG 降低了维护和开发的复杂性，使其更加健壮和精简。

实验结果

使用的数据集：该研究使用 SQuAD 和 HotPotQA 基准对 CAG 进行了评估，并使用不同的参考文本大小（小、中、大）来测试该方法的可扩展性和稳健性。
结果：
在大多数情况下，CAG 的 BERTScore 表现优于 RAG（稀疏和密集检索系统）。
由于预加载的缓存，CAG 显著减少了生成时间，尤其是对于较大的数据集。
密集检索方法虽然优于稀疏检索方法，但仍比不上 CAG 的统一上下文处理。

优势

效率提升： CAG 通过消除检索步骤和利用预先计算的缓存来提供更快的推理。
高准确度：统一的上下文处理可确保更准确、更一致的答案，因为不会因检索错误而丢失相关信息的风险。
可扩展性：像 Llama 3.1 这样的长上下文模型（具有 128k 个令牌限制）非常适合这种方法，并且 LLM 的进一步发展将增强 CAG 的功能。

限制

受限于可管理的知识库： CAG 的有效性取决于将所有相关文档放入 LLM 上下文窗口的能力。对于需要广泛或动态知识集成的任务，它可能无法很好地扩展。
预处理开销：预加载和预计算步骤需要前期的计算资源和时间，这对于临时查询来说可能是不切实际的。
缺乏适应性：虽然 CAG 在静态知识库方面表现出色，但它缺乏 RAG 系统在运行时适应新数据或不断发展的数据的灵活性。

关联

用例： CAG 对于具有固定和简洁知识库的应用程序特别有益，例如常见问题解答、产品手册或 QA 任务中使用的静态数据集。
未来前景：随着 LLM 不断扩展其上下文长度并提高处理能力，CAG 可以重新定义各种知识密集型任务的工作流程，有可能取代特定领域的传统 RAG 流程。

与之前工作的比较

相对于传统RAG：与将任务分为检索和生成的RAG不同，CAG将整个上下文整体处理，提高连贯性并降低复杂性。
基于长上下文 LLM 进展：该研究与“大型语言模型的长上下文 RAG 性能”和“TurboRAG”等著作中的发现一致，这些著作探索了扩展上下文的潜力，但仍然依赖于检索。

结论

该研究通过倡导 CAG 等无需检索的方法，提出了LLM知识整合的范式转变。虽然 CAG 并非普遍适用，但它为数据集有限且静态的场景提供了令人信服的优势，使其成为生成式 AI 工具包的宝贵补充。

醋醋百科网

Good Luck To You!

RAG 替代方案:无需检索，重新思考知识任务的缓存增强生成 (CAG)