如何构建一个更”好”的知识库:RAGAS 三维度评估 + 8 步构建流程 + 前沿架构选型

核心结论(一句话)

“好”的知识库 = RAGAS 三维度(检索相关性 Context Relevance + 生成忠实度 Faithfulness + 答案相关性 Answer Relevance)全面达标 + 8 步构建流程(Load/Split/Embed/Store + Query/Retrieve/Rerank/Generate)每个环节可调 + AutoRAG 等自动化优化解决”模块组合爆炸”;RAG 与 Long Context 不是二选一而是”RAG 粗筛 + Long Context 精读”的混合方案

分类提炼

知识节点(11 个独立概念)

关联图谱

上游(基于 / 来自)

下游(应用于 / 验证于)

同级(横向 / 并列)

正文要点(10 条)

一、RAG 本质:参数化记忆 + 非参数化记忆双引擎

维度 内容
提出时间 2020 年
提出者 Facebook AI Research(现 Meta AI)
核心创新 参 + 非参数化记忆双引擎
关键能力 显著超越纯参数化模型在 Open-Domain QA 上的表现
当前意义 至今 RAG 研究的基础框架
关键映射 知识库 = 非参数化记忆 = 外部记忆系统

二、知识库的接口:上传和召回

“知识库的核心接口,就是上传和召回。不同版本和理论,就是召回的内容和排序的区别。”

三、RAG vs Long Context 选型决策

决策维度 Long Context RAG
数据量 < 50K tokens > 50K tokens
更新频率 低(周/月级) 高(日/实时)
召回精度 模糊可接受 精确召回
上下文窗口 Claude 200K / Gemini 1M+ 不受限

混合方案 = RAG 粗筛 + Long Context 精读

四、RAGAS 三维度评估框架

1
2
Context Relevance(检索相关性)+ Faithfulness(生成忠实度)+ Answer Relevance(答案相关性)
= RAG 端到端性能

核心洞察:失败往往由检索 + 生成共同造成,必须分别评估才能定位根因

五、检索质量指标 vs 生成质量指标

维度 指标 计算 reference-free
检索 Context Precision 排序质量
检索 Context Recall claims 归因占比 ❌ 需参考答案
检索 Precision/Recall/F1 传统 IR
生成 Faithfulness LLM 拆 claims → 验证 → 占比
生成 Answer Relevance 反向生成问题比对相似度

六、ICLERB 端到端评估思路

“语义相似 ≠ 对 LLM 有用”

1
检索候选文档 → 注入 LLM 生成答案 → 评估答案准确性 → 反推检索器效果

参考论文:https://arxiv.org/abs/2411.18947

七、8 步构建流程(核心骨架)

离线索引:

在线查询:

八、检索模式三选一

模式 原理 工具
稠密检索 向量相似度 余弦 / 内积
稀疏检索 词频统计 BM25 / SPLADE
混合检索 稠密 + 稀疏 取长补短

九、查询处理:充分信任基模

“对用户原始查询进行预处理和增强……最为简单的方式就是交给大模型自己来。充分信任基模的能力。”

涉及的查询增强技术:HyDE、Late Chunking、意图驱动切分

十、前沿架构三案例

案例 核心思路 适用场景 文档完整度
AutoRAG 自动化 Pipeline 优化 特定领域数据集优化 + 缺乏调优经验 核心方法 + 适用场景已展开
QuIM-RAG 问题倒排索引匹配 (原文未展开) 仅标题
OpenViking 文件系统范式 (原文摘要提及但正文未展开) 仅摘要提及

5 个对 Seetong 团队可借鉴动作

  1. 用 RAGAS 三维度做 Seetong 知识库体检 —— 选 50 条用户问 FAQ / 内部 QA,跑 Context Precision/Recall + Faithfulness + Answer Relevance,看短板在哪
  2. chunk_size 实测校准 —— 默认 256-1024 是行业经验值,Seetong 的 Seetong_tps 模块 100-200 行/类可能需要更细粒度
  3. 引入混合检索(BM25 + 向量) —— Seetong 内部协议名/错误码(如 1118/1119/-102)是关键词敏感,纯向量会漏
  4. Faithfulness 评估首选 —— Faithfulness 检测幻觉是 RAG 最有价值的指标,如果只能选一个先做这个
  5. Cross-Encoder 重排序补救”初筛不准” —— 如果混合检索后排序混乱,加一个 Cross-Encoder 精排是性价比最高的优化

备注与限制

相关链接