“好”的知识库 = RAGAS 三维度(检索相关性 Context Relevance + 生成忠实度 Faithfulness + 答案相关性 Answer Relevance)全面达标 + 8 步构建流程(Load/Split/Embed/Store + Query/Retrieve/Rerank/Generate)每个环节可调 + AutoRAG 等自动化优化解决”模块组合爆炸”;RAG 与 Long Context 不是二选一而是”RAG 粗筛 + Long Context 精读”的混合方案。
| 维度 | 内容 |
|---|---|
| 提出时间 | 2020 年 |
| 提出者 | Facebook AI Research(现 Meta AI) |
| 核心创新 | 参 + 非参数化记忆双引擎 |
| 关键能力 | 显著超越纯参数化模型在 Open-Domain QA 上的表现 |
| 当前意义 | 至今 RAG 研究的基础框架 |
| 关键映射 | 知识库 = 非参数化记忆 = 外部记忆系统 |
“知识库的核心接口,就是上传和召回。不同版本和理论,就是召回的内容和排序的区别。”
| 决策维度 | Long Context | RAG |
|---|---|---|
| 数据量 | < 50K tokens | > 50K tokens |
| 更新频率 | 低(周/月级) | 高(日/实时) |
| 召回精度 | 模糊可接受 | 精确召回 |
| 上下文窗口 | Claude 200K / Gemini 1M+ | 不受限 |
混合方案 = RAG 粗筛 + Long Context 精读
1
2
Context Relevance(检索相关性)+ Faithfulness(生成忠实度)+ Answer Relevance(答案相关性)
= RAG 端到端性能
核心洞察:失败往往由检索 + 生成共同造成,必须分别评估才能定位根因
| 维度 | 指标 | 计算 | reference-free |
|---|---|---|---|
| 检索 | Context Precision | 排序质量 | ✅ |
| 检索 | Context Recall | claims 归因占比 | ❌ 需参考答案 |
| 检索 | Precision/Recall/F1 | 传统 IR | ✅ |
| 生成 | Faithfulness | LLM 拆 claims → 验证 → 占比 | ✅ |
| 生成 | Answer Relevance | 反向生成问题比对相似度 | ✅ |
“语义相似 ≠ 对 LLM 有用”
1
检索候选文档 → 注入 LLM 生成答案 → 评估答案准确性 → 反推检索器效果
参考论文:https://arxiv.org/abs/2411.18947
离线索引:
在线查询:
| 模式 | 原理 | 工具 |
|---|---|---|
| 稠密检索 | 向量相似度 | 余弦 / 内积 |
| 稀疏检索 | 词频统计 | BM25 / SPLADE |
| 混合检索 | 稠密 + 稀疏 | 取长补短 |
“对用户原始查询进行预处理和增强……最为简单的方式就是交给大模型自己来。充分信任基模的能力。”
涉及的查询增强技术:HyDE、Late Chunking、意图驱动切分
| 案例 | 核心思路 | 适用场景 | 文档完整度 |
|---|---|---|---|
| AutoRAG | 自动化 Pipeline 优化 | 特定领域数据集优化 + 缺乏调优经验 | 核心方法 + 适用场景已展开 |
| QuIM-RAG | 问题倒排索引匹配 | (原文未展开) | 仅标题 |
| OpenViking | 文件系统范式 | (原文摘要提及但正文未展开) | 仅摘要提及 |