OPALL

OPALL-F-002 · STUDY · 已整理 ORGANIZED · 前置:F-001

私有知识与 RAG 的部件清单

A parts list for RAG

RAG 是五个部件的流水线,每个部件都有自己的失败方式。会拆部件,才知道"检索不准"到底该修哪里。

01先说它解决什么THE PROBLEM

模型有两个天生的缺陷:知识停在训练那天,而且不认识你的私有资料。RAG(检索增强生成)就是给模型配一个"开卷考试"的机制——回答之前,先从你的资料库里翻出相关的几页,摊在模型面前,让它照着答。

在 F-001 的四级阶梯里,这是第二级:模型多了"读"的权力。听起来简单,但"翻出相关的几页"这个动作,是一条五个部件组成的流水线,每个部件都可能出错——这就是为什么 RAG demo 几分钟就能跑通,RAG 系统以月计也未必稳。

02五个部件,按资料流动的顺序FIVE PARTS

① 切分。把文档剁成小块(chunk)。剁太碎,一块里的信息不完整;剁太粗,一块里混进无关内容。很多"答非所问"的根子在这一刀。

② 向量化。把每一块变成一串数字(embedding),语义相近的块数字也相近。这一步决定了系统"觉得什么和什么像"——它对专业术语、缩写、中英混排的理解,全看向量模型的水平。

③ 存储。把向量放进向量库,让"找相近"这个动作在百万块里也够快。这是五个部件里最不容易出问题的一个——也是最被过度关注的一个。

④ 检索与重排。问题来了,先把问题也向量化,捞出最相近的若干块(检索),再用更细的模型把捞出来的重新排序(重排),把真正相关的顶上去。质量的大头在这里。

⑤ 组装与生成。把排好序的块和问题拼成提示词,交给模型生成答案,并要求它标注引用了哪块。答案的"忠实度"——是照资料说的,还是自己编的——在这一步定型。

03坏答案怎么定位DEBUGGING

系统答错了,别急着换模型。沿流水线倒着查,三个问题就能定位:

资料里到底有没有答案?没有——这不是 RAG 的错,是知识库缺料,任何部件都救不了。有,但没被捞出来?问题在①②④:切分把答案剁散了、向量模型不理解你的行话、或者检索排序把它埋在了后面。捞出来了,但答错了?问题在⑤:上下文太乱模型没看懂,或者模型无视资料自己发挥——后者要靠强制引用和"资料里没有就说没有"的指令来治。

这套排查法的价值在于:它把"AI 不准"这个玄学抱怨,变成了五个可以逐个检查的工程问题。

04部件之前的功课BEFORE THE PARTS

注意:五个部件全部装好,也只解决了"找得准"。它们完全不回答另一组问题——这份资料是最新版吗?谁有权看它?它能不能被引用到对外场合?答错了谁负责?

这组问题必须在资料进入流水线之前回答:来源登记、权限分级、版本规则、证据结构、审核流程。先有知识的秩序,再有检索的技术——顺序反了,检索只会把混乱更快地端到用户面前。这个判断的完整展开,见 N-002 私有知识系统先于 RAG——读完本页再读它,你会看懂它每一段在说流水线的哪个位置之外的事。

05常见误区PITFALLS

把向量库当成 RAG 本身。它只是部件③,而且是最成熟、最不需要操心的一个。选型讨论常年聚焦在这里,纯属声量错位。

把"能检索"当成"有知识系统"。检索是技术能力,知识系统是管理秩序——来源、权限、版本、审核。前者很快能搭好,后者才是长期工程。

用一次惊艳的问答验收系统。单次效果好证明不了什么。像样的验收要一组固定问题、对照标准答案、每次改动后重跑——这已经是评测思维了,正好是下一份底稿 F-003 的主题。

06连回判断TO THE NOTES

部件之上的秩序问题,见 N-002 私有知识先于 RAG;知识库作为业务 Agent 的一环怎么管,见 P-002 Business Agent Workflow;把"知识有没有资格进系统"做成方法论,见 P-003 OPALL Knowledge System

07自测清单SELF CHECK

  • 能按资料流动顺序说出五个部件吗?
  • 拿到一个坏答案,知道用哪三个问题定位吗?
  • 能解释切分的粗细各会导致什么症状吗?
  • 能说清"找得准"和"有秩序"是两件事吗?
  • 知道为什么单次惊艳的问答不能当验收吗?