知识库分层编排:从 RAG 到 Agent-native Knowledge Context Layer
- 原文链接:https://mp.weixin.qq.com/s/_IlrlfGpPa42VhTaKNAj6A
- 原始作者:板牙(微信公众号)
- 来源:微信公众号 / 板牙
- 发布时间:2026-06-10 08:30
- 获取时间:2026-06-10
核心结论(一句话)
文章系统梳理知识库从 Naive RAG → LLM Wiki → Graphify → GraphRAG 的四种范式演化,并提出第 5 种「金字塔(Pyramid KB)」——按 5 层抽象分层(原则/架构/规范/实现/经验)+ 7 种有向边跨层关联 + 角色感知(架构师看 L1+L2,开发者看 L2-L4)+ 变更驱动更新(不是日历驱动)。200 条 QA 测试:Pyramid+RAG Hit@3=89% 显著优于 Naive RAG 的 75%。核心命题:不是替代任何范式,而是在顶层增加结构化路由和导航层,让不同角色 AI 知道该去哪里找、按什么顺序读、给谁看哪些。
分类提炼
- 场景:知识库方法论 / Agent 驱动的第二大脑 / 工程团队知识沉淀
- 标签:#主题/RAG系统 #主题/知识工程 #节点/金字塔五层 #节点/角色感知
- 类型:方法论 / 范式对比 / 评测分析
知识节点(11 个独立概念)
- RAG天花板:①每次从零推导(Karpathy 引述”no accumulation”)②无法连点成线(GraphRAG 引述”struggles to connect the dots”)③粒度混乱(向量空间不区分抽象层次,”设计原则”和”代码实现”语义上可能很近)
- 四个常见症状:”搜什么都是那几篇”(高词频长文档垄断)/ “找到了但不是我要的层次”/ “改了一个地方不知道影响什么”/ “新人不知道从哪看起”;共同根源:知识库缺少结构
- Naive-RAG:平铺向量检索;文档→chunk→embedding→Top-K;优势是简单;局限是默认无积累/无关联/无层次/无角色区分;代表产品:企业知识库、NotebookLM 基础模式
- LLM-Wiki:Karpathy 提出的”持续编译的知识工件”;三层架构(Raw Sources + Wiki + Schema);三个核心操作(ingest / query / lint);LLM 显著降低维护负担但仍有局限(过期引用/内容冲突/错误归档/幻觉);适合中等规模(~100 源文档)
- Graphify:代码即图谱;双管道提取(AST 离线 + LLM 语义);三个产出物(graph.html / GRAPH_REPORT.md / graph.json);独有能力:God Nodes / Surprising Connections / Knowledge Gaps / 置信度三档;代码+数据库+配置+设计文档+媒体统一到一张图
- GraphRAG:图谱增强检索;先构建知识图谱 → 社区聚类 → 分层摘要;两种查询模式(Global Search 全局 / Local Search 局部);构建成本高、增量更新困难
- 金字塔五层:L1 原则(SOLID/KISS,年,宪法)/ L2 架构(ADR,季度,法律)/ L3 规范(ESLint,月,规章)/ L4 实现(代码模板,周,手册)/ L5 经验(故障复盘,天,判例);类比法律体系:宪法/法律/规章/手册/判例
- 7种有向边:governs(L1→L2)/ defines(L1→L2/L3)/ constrains(L2→L3)/ implements(L2/L3→L4)/ validates(L4→L5)/ feedback(L5→L3/L4)/ cross_ref(任意);支持上溯/下探/反馈环/场景路径
- 角色感知:架构师看 L1+L2,开发者看 L2+L3+L4;每个角色有独立 context_budget 和 priority_order,系统按优先层顺序逐层填充内容直到预算用完
- 变更驱动更新:不是”每月检查一次”,而是绑定到工作流触发器——架构评审→L2 / Lint 变更→L3 / 依赖升级→L4 / 故障复盘→L5 / 新服务上线→L2+L4 / 新人提问→L3/L5
- Pyramid+RAG混合:Hit@3=89% vs Naive RAG 75%;导航类查询从 0% → 93.3%;金字塔做分层定位(0 API)+ 向量检索补代码深度(1 API)
关联图谱
上游(基于 / 来自)
- [[AI知识库技术演进拆解-从RAG到NotebookLM再到LLM-Wiki]] - RAG → NotebookLM → LLM Wiki 三阶段演进的背景,本篇补完”LLM Wiki 之上的 Pyramid”
- [[构建LLM-Wiki智能知识库-实现AI辅助写作工作流]] - method/concepts/raw 三层结构的写作工作流;本篇的金字塔 5 层是更通用的抽象
- [[如何使用AI打造智能高效省Token的AI知识库-LLM-Wiki-Skill设计详解]] - moss 的 grep 查询 Skill;本篇的”分层关键词打分 + 图谱扩展”是类似思路的更体系化版本
- [[deep-analysis-llm-wiki-obsidian-wiki-gbrain]] - Obsidian Wiki / GBrain 深度分析;本篇的 Pyramid 与 Obsidian Wiki 高度互补
- [[ai-personal-knowledge-base-problems]] - 传统个人知识库的痛点,本篇的金字塔部分回应了”找不到层次”这一痛点
- [[hermes-obsidian-llm-wiki-knowledge-base]] - Obsidian + LLM Wiki 混合实现
下游(应用于 / 验证于)
- [[从软件工程基本功到Agent落地:结合OpenClaw与Claude Code的实践理解]] - 软件工程基本功在 Agent 时代的延续,本篇的”L1 原则 / L2 架构 / L3 规范”是软件工程思维的具象化
- [[Claude-Code团队5条工作原则-Fiona-Fung分享]] - “自动化肌肉记忆”与本篇”变更驱动更新”是同主线
- [[Claude-Code首席设计师Meaghan-Choi工作流]] - Meaghan 强调”AI 自动巡逻产品质量”是 Routine 思路,本篇的”绑定到工作流触发器”是知识库侧的同主线
正文要点(10 条)
一、RAG 的三个结构性缺陷
| 缺陷 |
引述 |
| 每次从零推导 |
Karpathy:”LLM 在每个问题上都从头重新发现知识,没有任何积累” |
| 无法连点成线 |
Microsoft GraphRAG:”struggles to connect the dots” + “无法对大规模语料做全局性的语义理解” |
| 粒度混乱 |
向量空间不区分抽象层次——”设计原则”和”代码实现”语义上可能很近(都包含”单一职责”关键词) |
二、四个常见症状
- “搜什么都是那几篇” —— 高词频长文档垄断 Top-K 结果
- “找到了但不是我要的层次” —— 想知道”是什么”,返回了”怎么实现”
- “改了一个地方不知道影响什么” —— 文档之间没有关联关系
- “新人不知道从哪看起” —— 没有阅读路径和导航结构
共同根源:知识库缺少结构。 向量检索把知识当成”一袋词”,而工程知识是”一棵树”和”一张图”。
三、四种范式对比(Naive RAG / LLM Wiki / Graphify / GraphRAG)
| 维度 |
Naive RAG |
LLM Wiki |
Graphify |
GraphRAG |
| 知识表示 |
向量空间中的 chunk |
结构化 wiki 页面 |
有向图(节点+边) |
知识图谱+社区摘要 |
| 知识积累 |
❌ 无 |
✅ 持续积累 |
✅ 增量更新 |
部分(需重建) |
| 知识关联 |
默认无(可加 metadata filter) |
手动 wikilink |
✅ 自动推断 |
✅ 自动推断 |
| 层次感知 |
默认无(可加 rerank) |
按主题分页 |
按社区分组 |
分层社区 |
| 角色适配 |
默认无 |
❌ 无 |
❌ 无 |
❌ 无 |
| 适合规模 |
大(1000+篇) |
中(~100篇) |
大(整个代码库) |
大(但构建贵) |
| 维护成本 |
低(自动索引) |
中(LLM维护) |
低(git hook 自动) |
高(需重建) |
四、金字塔的五层分层(对应法律体系类比)
| 金字塔层 |
软件工程对应 |
稳定性 |
类比 |
| L1 原则 |
SOLID / KISS / YAGNI |
最高(年) |
宪法 |
| L2 架构 |
架构决策记录(ADR) |
高(季度) |
法律 |
| L3 规范 |
编码标准(ESLint 规则) |
中(月) |
规章 |
| L4 实现 |
代码模板、SDK 文档 |
低(周) |
手册 |
| L5 经验 |
故障复盘、运维日志 |
最低(天) |
判例 |
分层的核心价值:检索时先确定”用户在问哪个层次的问题”,再在该层内精确定位。
五、跨层关联的 7 种有向边
| 边类型 |
方向 |
含义 |
| governs |
L1→L2 |
原则约束架构决策 |
| defines |
L1→L2/L3 |
概念定义域边界 |
| constrains |
L2→L3 |
架构约束编码规范 |
| implements |
L2/L3→L4 |
架构/规范的具体实现 |
| validates |
L4→L5 |
实现产生运维经验 |
| feedback |
L5→L3/L4 |
经验反馈改进规范和实现 |
| cross_ref |
任意 |
同层或跨层的横向引用 |
六、角色感知(独有设计)
同一个知识库:
- 架构师看到 L1+L2(原则和架构)
- 开发者看到 L2+L3+L4(架构、规范和实现)
每个角色有独立的 context_budget 和 priority_order,系统按优先层顺序逐层填充内容直到预算用完,确保有限的 context window 里优先塞入该角色最需要的知识。
七、Pyramid+RAG 混合检索 vs 纯向量检索
| 维度 |
向量检索 |
金字塔分层检索 |
| 定位方式 |
语义相似度(embedding 距离) |
分层关键词打分 + 图谱扩展 |
| 搜索空间 |
全量文档 |
角色可访问层的子集 |
| 粒度控制 |
默认无 |
先按层过滤再定位 |
| 关联能力 |
默认单文档匹配 |
图谱边自动关联上下游 |
| API 调用 |
每次 1 次 embedding 调用 |
0 次(纯本地) |
| Token 消耗 |
较高(返回 raw chunk) |
较低(budget 截断 + 摘要级内容) |
最优组合:金字塔做分层定位(0 API 调用)→ 向量检索补代码级深度(1 API 调用)= 结构化导航 + 精确细节的互补。
八、知识保鲜:三层级方法论
原则一:每层有不同的保鲜周期
| 层 |
合理的审查周期 |
过期信号 |
| L1 原则 |
年度 |
团队内部对某条原则产生分歧 |
| L2 架构 |
季度 |
系统拓扑图与文档不一致 |
| L3 规范 |
月度 |
Lint 规则和文档描述的规则不同 |
| L4 实现 |
周/天级 |
代码模板跑不通或依赖版本过期 |
| L5 经验 |
天级 |
故障排查 SOP 中提到的命令/路径不存在 |
原则二:用审计发现问题,而非人工巡检(4 维度 = 覆盖率 / 新鲜度 / 图谱连通 / 层级平衡)
原则三:变更驱动更新,而非日历驱动(绑定到已有工作流的触发器)
九、增量同步机制(Phase 1 → 2 → 3)
1
2
3
| Phase 1 审计 → 扫描覆盖率 / 检测过期文档 / 输出 gaps
Phase 2 摄入 → 加载源文档 / 分块 / 分类 / 去重(skip/update/move/write)
Phase 3 后审计 → 对比 Before/After 覆盖率改进
|
去重四策略(checksum + entry ID 双重校验):内容不变同层 → skip / 内容变了同层 → update / 层级变了 → move / 全新内容 → write
十、评测结果(200 条 QA,6 个对比模式)
Pyramid+RAG(D)显著优于其他:
| 模式 |
Hit@1 |
Hit@3 |
Hit@5 |
MRR |
Ctx Prec |
Ctx Recall |
| D: Pyramid+RAG |
32.5% |
89.0% |
89.5% |
53.7% |
0.405 |
0.636 |
| A: Naive RAG |
55.0% |
75.0% |
75.0% |
61.6% |
0.218 |
0.320 |
| F: Knowledge Graph |
64.5% |
71.0% |
71.0% |
67.5% |
0.574 |
0.317 |
| C: Pyramid KB |
32.5% |
58.5% |
64.5% |
44.8% |
0.272 |
0.480 |
| B: Pipeline Skill |
44.5% |
54.5% |
54.5% |
49.3% |
0.419 |
0.457 |
| E: LLM Wiki |
31.0% |
40.0% |
40.0% |
35.4% |
0.242 |
0.400 |
分维度表现(Hit@3):
| 查询类型 |
n |
D:Pyr+RAG |
C:Pyramid |
B:Pipeline |
F:Graphify |
E:Wiki |
A:RAG |
| 代码细节 |
80 |
98.8% |
87.5% |
61.3% |
75.0% |
66.3% |
~100%* |
| 运维排障 |
40 |
82.5% |
47.5% |
17.5% |
67.5% |
22.5% |
~100%* |
| 架构概念 |
30 |
86.7% |
36.7% |
43.3% |
70.0% |
23.3% |
~100%* |
| 跨服务关联 |
25 |
68.0% |
36.0% |
96.0% |
92.0% |
4.0% |
0.0% |
| 导航 |
15 |
93.3% |
40.0% |
46.7% |
33.3% |
33.3% |
0.0% |
| 服务定位 |
10 |
90.0% |
20.0% |
90.0% |
60.0% |
50.0% |
0.0% |
局限性声明:单评估者、非盲评、评测集由 LLM 生成可能存在分布偏差;仅在单一团队知识库上测试。
我的理解
- “给知识加上结构”是 2026 年 AI 知识库的核心命题 —— 不再是”哪种范式最好”,而是”在顶层加结构化路由和导航层”;这与 [[AI知识库技术演进拆解-从RAG到NotebookLM再到LLM-Wiki]] 的”LLM Wiki 是 RAG 之后的下一阶段”主线一致,但本篇明确指出 LLM Wiki 的局限(wiki 页面之间的关联通过 wikilink 手动维护,无自动关系推断),并用金字塔补上这一环
- “5 层抽象分层”是软件工程思维在知识库上的具象化 —— L1 原则 / L2 架构 / L3 规范 / L4 实现 / L5 经验 = 对应 SOLID/ADR/ESLint/代码模板/故障复盘;类比法律体系(宪法/法律/规章/手册/判例)是把抽象层次具象化的最强抓手;对 Seetong 团队:Seetong 当前 Seetong-iOS / Seetong-Android 知识库可考虑按此 5 层重新组织,尤其是 L5 经验层(故障复盘/线上排查 SOP)目前散落在各人笔记,可统一沉淀
- “角色感知 + 上下文预算”是 Agent 时代的关键设计模式 —— 不再”所有人看同一份文档”,而是”架构师看 L1+L2,开发者看 L2-L4,测试看 L3+L5”;对 Seetong 团队:不同角色(开发/测试/PM/客服)对同一份”异地组网”知识应该有不同的入口和深度,这件事可以立刻用 Pyramid 思路做小试点
- “变更驱动更新”是知识库保鲜的工程化关键 —— 不是”每月检查一次”,而是绑定到架构评审/Lint 变更/依赖升级/故障复盘/新服务上线等已有工作流;与 [[Claude-Code团队5条工作原则-Fiona-Fung分享]] 的”自动化肌肉记忆”是同主线 —— 让维护成为流程的一部分,而不是额外工作;对 Seetong 团队:TAPD 需求/Bug 流可作为知识库更新的天然触发器(需求创建时补 L2+L4,Bug 关闭时补 L5)
- “Pyramid+RAG Hybrid”是 2026 年最实用的工程方案 —— 金字塔做分层定位(0 API)+ 向量检索补深度(1 API);Pyramid+RAG Hit@3=89% vs Naive RAG 75%,且对导航类查询从 0% → 93.3%(从完全答不到到基本答到);对 Seetong 团队:可考虑用 Obsidian / Logseq 作为 L1-L4 分层承载 + LanceDB / Chroma 作为向量检索补深度,搭一个”5 层 + 向量”的轻量 Pyramid
- “评测方法 + 局限性声明”是这篇文章最值得学习的工程态度 —— 明确说”单评估者 / 非盲评 / 评测集由 LLM 生成可能存在分布偏差 / 仅单一团队知识库测试”,而不是直接下结论”Pyramid 最好”;这种”敢给数据 + 敢说不确定”的态度本身就是知识工程的态度
对 Seetong 团队的 5 个可借鉴动作(已写进 wiki)
- 按 5 层抽象分层重新组织 Seetong 知识库(尤其补 L5 经验层:把故障复盘 SOP 单独成层)
- 角色-层级访问矩阵小试点(给开发/测试/PM 三个角色配不同入口和深度)
- 绑定 TAPD 工作流做变更驱动更新(需求创建→补 L2+L4;Bug 关闭→补 L5)
- 审计指标 4 维度量化知识库健康度(覆盖率 / 新鲜度 / 图谱连通 / 层级平衡)
- 评测知识库检索精度(拿 Seetong 内部 100 条 QA 测一下 Pyramid+RAG vs 当前方案的 Hit@3 差异)
相关链接
- 原文:https://mp.weixin.qq.com/s/_IlrlfGpPa42VhTaKNAj6A
- 关联 wiki:
- [[AI知识库技术演进拆解-从RAG到NotebookLM再到LLM-Wiki]] - RAG → NotebookLM → LLM Wiki 三阶段演进的背景,本篇补完”LLM Wiki 之上的 Pyramid”
- [[构建LLM-Wiki智能知识库-实现AI辅助写作工作流]] - method/concepts/raw 三层结构的写作工作流
- [[如何使用AI打造智能高效省Token的AI知识库-LLM-Wiki-Skill设计详解]] - moss 的 grep 查询 Skill
- [[deep-analysis-llm-wiki-obsidian-wiki-gbrain]] - Obsidian Wiki / GBrain 深度分析
- [[ai-personal-knowledge-base-problems]] - 传统个人知识库的痛点
- [[hermes-obsidian-llm-wiki-knowledge-base]] - Obsidian + LLM Wiki 混合实现
- [[从软件工程基本功到Agent落地:结合OpenClaw与Claude Code的实践理解]] - 软件工程基本功在 Agent 时代的延续
- [[Claude-Code团队5条工作原则-Fiona-Fung分享]] - “自动化肌肉记忆”与”变更驱动更新”是同主线
- [[Claude-Code首席设计师Meaghan-Choi工作流]] - “AI 自动巡逻产品质量”与”绑定工作流触发器”是同主线
- 参考文献:
- Karpathy, A. (2025). LLM Wiki Pattern: https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
- Shamsi, S. (2025). Graphify: Knowledge Graphs for Code: https://github.com/safishamsi/graphify
- Microsoft Research. (2024). GraphRAG: https://microsoft.github.io/graphrag/