OPALL

OPALL-N-005 · FIELD NOTE · 已发布 PUBLISHED

高端 AI 项目为什么先看证据链

Why evidence chains come before demos

演示回答的是"它最好的时候能怎样",证据链回答的是"它平常是什么样、失败的时候是什么样、边界在哪里"。支撑判断的是后一组问题。

01核心判断CORE JUDGMENT

评估一个高端 AI 项目,顺序应该是先证据链、后演示。演示回答的是"它最好的时候能怎样",证据链回答的是"它平常是什么样、失败的时候是什么样、边界在哪里"。前者决定印象,后者支撑判断。

这里的证据链指五件具体材料:README、执行轨迹(trace)、产物(artifact)、测试结果和边界声明。它们并不神秘,多数认真做事的团队本来就有,只是常常没有被当作交付物整理出来。

这个判断的另一面同样成立:如果一个项目除了演示什么都拿不出来,这本身就是重要信息。它未必说明项目造假,但至少说明项目还没有被整理到可以被追问的程度——而"可以被追问",正是高价值项目和漂亮原型的分界线。

02Demo 在优化什么WHAT DEMOS OPTIMIZE

演示不是中性的证据,它有自己的生产机制:输入被挑选过,路径被排练过,时机被控制过。这不是道德缺陷——任何人展示工作都会选择最好的一面——但评估者必须清楚,自己看到的是分布的顶端,不是平均值。

顺滑感本身也会误导判断。一段不卡顿的演示会让人下意识推断系统稳定,但顺滑证明的只是这一条路径被跑通过。真正的问题在别处:换一种输入会怎样?中途失败会怎样?没有人在旁边操作时会怎样?这些演示都无法回答。

所以 demo 的正确位置是方向证明:它证明这件事值得做、交互可以这样想象。方向证明很有价值,但它和能力证明是两种东西。把 demo 当能力证明,等于用海报替代体检报告。

03证据链的五件材料FIVE MATERIALS

README 回答"声称什么、如何启动";trace 回答"真实运行时发生了什么";artifact 回答"产出的东西本身立不立得住";测试回答"什么在什么时候被验证过";边界声明回答"什么没有做、什么不声称"。五件材料各答一问,谁也替代不了谁。

它们之间还互相制约。README 的声称要能在 trace 里找到对应;trace 里的产出要能落到 artifact;artifact 的质量要有测试兜底;而边界声明限制前四者不被过度解读。缺一件,链条就在那里断开,判断就要在那里降级。

值得强调的是,这五件材料的门槛都不高,高的是纪律。一个只有两周历史的小项目也可以有完整的证据链;一个投入巨大的系统也可能一件都拿不出来。证据链衡量的不是投入,而是项目是否被认真对待。

04可追问性是唯一标准FOLLOW-UP RESISTANCE

证据的价值不在数量,在可追问性:任选一环,能不能往下挖一层?看到结论,能不能回溯到过程?追问三层之后,是越来越清楚,还是断在某个"这个当时没记录"?

可追问性也是区分整理和包装的试金石。包装出来的材料经不起随机抽查,因为它是从结论倒推的;整理出来的材料越查越顺,因为它是从过程沉淀的。评估者不需要查完所有材料,随机深挖两三处,链条的质地就会显形。

这也是为什么证据链很难事后补。事后补的 trace 是复述,不是记录;事后写的测试是装饰,不是验证。证据链的可信度来自它与工作同步生长——这一点,恰好也是最难伪造的部分。

05十分钟证据链体检TEN-MINUTE CHECK

  1. 读 README 的边界部分。先不看能做什么,找"不做什么、未覆盖什么"。没有这一段,评估从扣分开始。
  2. 要一条完整的执行轨迹。不是最好的一次,而是最近的一次;对照 README 的声称逐项核对。
  3. 打开 artifact 本身。报告、文件、日志,看能否独立打开、独立理解,而不是只存在于演示里。
  4. 看测试在验证什么。核心路径有没有被覆盖,失败样例有没有被保留。全绿但只测表面的测试等于没测。
  5. 问一个"没做什么"。回答具体而坦然,说明团队清楚自己的边界;回避或反问,说明边界还没被想过。

06对交付方的启示FOR BUILDERS

把视角反过来,评估者的清单就是交付方的作业本。与其把演示再打磨一遍,不如把 README 的边界段补齐、把最近一次真实运行的 trace 留好、把 artifact 整理到能独立打开、把测试的缺口写明。这些工作不炫目,但它们直接决定项目在追问下的成色。

对交付方来说,边界声明尤其值得先写。它看起来是自我限制,实际上是自我保护:把"没做什么"说清楚,剩下的声称才有分量;什么都声称的项目,每一条声称都会被打折。

本站的 N-003 讨论过同一件事的另一面——项目如何把自己变成可追问证据。两篇合起来是一个闭环:交付方按证据链交付,评估方按证据链追问,demo 回到它该在的位置:开场,而不是结论。

相关 → N-003 · AI 项目如何变成可追问证据 · 证据索引

07评估视角检查清单CHECKLIST

  • 是否先看 README、trace、artifact、测试和边界声明,再看演示?
  • 声称与证据是否逐条对应,能从结论回溯到过程?
  • 拿到的轨迹是"最近的一次",还是"最好的一次"?
  • artifact 能否脱离演示被独立打开和验证?
  • 测试是否覆盖核心路径,失败样例是否被保留?
  • 追问"没做什么"时,是否得到具体而坦然的回答?
  • "已实现"与"计划中"是否被区分成不同等级的声称?