去年年初一度有人预言”RAG已死,长上下文模型会取代一切”。结果呢?RAG不但没死,反而进化了。
从RAG到Context Engine
RAG最初的定义是”检索增强生成”——从外部数据库捞信息,塞给模型一起用。但到2025年底,这个概念已经膨胀成了更广义的”上下文工程”。
核心逻辑没变:帮模型动态获取它需要的上下文信息。但做法从”简单的向量检索+拼接”进化成了一整套智能上下文装配系统。
为什么长上下文没有替代RAG?
理论上100万token的上下文窗口可以塞进去很多东西。但现实是:
- 成本:每次调用都塞100万token,API费用扛不住
- 精度:上下文越长,检索准确率越低(Opus 4.6在100万token时也只有76%)
- 延迟:塞满上下文意味着更长的处理时间
RAG的核心优势是按需检索——只拿最相关的信息,不塞废话。这个优势并不会因为上下文窗口变大而消失。
2025年的技术进展
混合检索:语义搜索+关键词搜索+知识图谱组合使用,效果稳定优于任何单一方法。
GraphRAG:把知识抽取成图谱结构,层次化组织,提升推理能力。
多模态RAG:把图片、音频、表格、视频的embedding也纳入检索范围。
企业采用加深
2025年中大型企业已经在系统性地建设RAG基础设施。”RAG即基础设施”这个概念落地了——不是某个应用的组件,而是所有AI应用共用的底层能力。
对于AI Agent来说,RAG更是刚需。Agent需要从私有数据中精准获取信息来执行任务,这恰好是RAG最擅长的。
**”易上手难精通”**是RAG最大的挑战。搭一个demo版RAG系统很快,但要做到生产级的精度和稳定性,需要大量的调优工作。
参考来源:RAGFlow年度回顾