高端 AI 项目为什么先看证据链

01核心判断CORE JUDGMENT

评估一个高端 AI 项目，顺序应该是先证据链、后演示。演示回答的是"它最好的时候能怎样"，证据链回答的是"它平常是什么样、失败的时候是什么样、边界在哪里"。前者决定印象，后者支撑判断。

这里的证据链指五件具体材料：README、执行轨迹（trace）、产物（artifact）、测试结果和边界声明。它们并不神秘，多数认真做事的团队本来就有，只是常常没有被当作交付物整理出来。

这个判断的另一面同样成立：如果一个项目除了演示什么都拿不出来，这本身就是重要信息。它未必说明项目造假，但至少说明项目还没有被整理到可以被追问的程度——而"可以被追问"，正是高价值项目和漂亮原型的分界线。

演示不是中性的证据，它有自己的生产机制：输入被挑选过，路径被排练过，时机被控制过。这不是道德缺陷——任何人展示工作都会选择最好的一面——但评估者必须清楚，自己看到的是分布的顶端，不是平均值。

顺滑感本身也会误导判断。一段不卡顿的演示会让人下意识推断系统稳定，但顺滑证明的只是这一条路径被跑通过。真正的问题在别处：换一种输入会怎样？中途失败会怎样？没有人在旁边操作时会怎样？这些演示都无法回答。

所以 demo 的正确位置是方向证明：它证明这件事值得做、交互可以这样想象。方向证明很有价值，但它和能力证明是两种东西。把 demo 当能力证明，等于用海报替代体检报告。

README 回答"声称什么、如何启动"；trace 回答"真实运行时发生了什么"；artifact 回答"产出的东西本身立不立得住"；测试回答"什么在什么时候被验证过"；边界声明回答"什么没有做、什么不声称"。五件材料各答一问，谁也替代不了谁。

它们之间还互相制约。README 的声称要能在 trace 里找到对应；trace 里的产出要能落到 artifact；artifact 的质量要有测试兜底；而边界声明限制前四者不被过度解读。缺一件，链条就在那里断开，判断就要在那里降级。

值得强调的是，这五件材料的门槛都不高，高的是纪律。一个只有两周历史的小项目也可以有完整的证据链；一个投入巨大的系统也可能一件都拿不出来。证据链衡量的不是投入，而是项目是否被认真对待。

证据的价值不在数量，在可追问性：任选一环，能不能往下挖一层？看到结论，能不能回溯到过程？追问三层之后，是越来越清楚，还是断在某个"这个当时没记录"？

可追问性也是区分整理和包装的试金石。包装出来的材料经不起随机抽查，因为它是从结论倒推的；整理出来的材料越查越顺，因为它是从过程沉淀的。评估者不需要查完所有材料，随机深挖两三处，链条的质地就会显形。

这也是为什么证据链很难事后补。事后补的 trace 是复述，不是记录；事后写的测试是装饰，不是验证。证据链的可信度来自它与工作同步生长——这一点，恰好也是最难伪造的部分。

把视角反过来，评估者的清单就是交付方的作业本。与其把演示再打磨一遍，不如把 README 的边界段补齐、把最近一次真实运行的 trace 留好、把 artifact 整理到能独立打开、把测试的缺口写明。这些工作不炫目，但它们直接决定项目在追问下的成色。

对交付方来说，边界声明尤其值得先写。它看起来是自我限制，实际上是自我保护：把"没做什么"说清楚，剩下的声称才有分量；什么都声称的项目，每一条声称都会被打折。

本站的 N-003 讨论过同一件事的另一面——项目如何把自己变成可追问证据。两篇合起来是一个闭环：交付方按证据链交付，评估方按证据链追问，demo 回到它该在的位置：开场，而不是结论。