不可压缩知识探针 (IKP) 论文精读笔记

🎯 研究背景与核心问题

这篇论文解决了一个困扰AI从业者已久的问题：如何在不访问模型权重的情况下，估计闭源大语言模型的有效参数量？ 传统的"推理经济学"方法通过API吞吐量、定价和硬件成本来反推模型规模，但 acknowledged 2倍以上的不确定性来自硬件代际、批处理、量化、服务栈等外部因素。

作者 Bojie Li（来自 Pine AI）提出了一种全新的内在性估计方法：利用信息论的基本约束——存储 F 个事实至少需要 F/(每参数比特数) 的权重。因此，测量一个模型"知道多少"，就能从下方约束它"有多少参数"。这就是 Incompressible Knowledge Probes (IKP) 的核心思想。

核心洞见： Transformer 的前馈层本质上是以 key-value 记忆的形式存储事实关联，实证存储容量约为每参数 2–4 比特的事实知识。这一物理约束使得"知识测量"成为"参数估计"的可靠代理。

📐 理论基础：可压缩 vs 不可压缩

论文提出了一个深刻的概念区分，直接挑战了当前业界对"Scaling Law 已死"的流行解读：

程序性能力 (Procedural Capability)：推理、解析、指令遵循等，是输入上的可压缩函数。更好的架构和训练方法确实能在更少参数中打包更多程序性能力——这就是"Densing Law"所描述的现象（每参数能力每~3.5个月翻倍）。
事实性知识 (Factual Knowledge)："USTC Hackergame 始于2014年"这类事实无法从一般知识推导、计算或推断出来；它必须被显式存储。香农熵为所需比特数提供了硬下界。

论文将模型参数分解为三个功能角色：N = N_fact + N_proc + N_ling。Densing Law 提高的是 N_proc 和 N_ling 的效率，但 N_fact 被存储事实的信息内容从下界约束。IKP 专门探测 N_fact，从而为总参数量 N 提供下界估计。

对 Densing Law 的纠偏： 推理基准测试的广泛饱和被误读为"缩放已终结"的证据。论文证明这是混淆了两种资源——基准饱和仅仅说明测试已停止测量不可压缩的部分，而非事实容量停止增长。

🔬 IKP 基准设计：七层难度体系

IKP 包含 1,400 个事实探针，均匀分布在 7 个难度层级 (T1–T7) 中，每层 200 题。这些探针专门设计来隔离无法通过推理或架构改进压缩的知识成分。

探针生成双阶段流水线

Phase A (LLM 生成)：主要用于 T1–T2（简单层级），占 401 题。使用 GPT-5 生成候选问题。有趣的是，无论难度提示如何，~82% 的 LLM 生成候选落在 T1–T2，证实 LLM 无法可靠生成超越自身知识地平线的事实探针。
Phase B (语料库 grounded)：用于 T3–T7（困难层级）。从 Wikidata（557 题）和 DBLP/arXiv 研究者记录（345 题）中采样实体，并针对源数据进行答案验证。

七层难度定义

层级不是由代理指标定义，而是由六个地标模型 (landmark models) 的经验表现确定：从 Qwen 2.5 0.5B (T1/T2 边界) 到 Gemini 3.1 Pro (T6/T7 边界)。一个探针被分配到层级 k，当且仅当 T_k 地标能答对而 T_{k-1} 不能。非单调正确的探针被丢弃 (~15%)。

层级	地标模型	参数量	特征
T1–T2	Qwen 2.5 0.5B / 7B	0.5B / 7.6B	常识性知识，几乎所有模型饱和
T3	Qwen 3 32B	32B	领域知识，斜率最陡 (0.324/十倍)
T4	Qwen 3 235B	235B	较冷门知识，最佳人群区分力
T5	Kimi K2.5	~1T	深度知识，区分前沿模型的主战场
T6	Gemini 3.1 Pro	Frontier	长尾知识，仅最强专有模型得分
T7	—	beyond	极端冷门，当前所有模型接近 0%

评分机制

使用 Gemini 3 Flash Preview 作为评判器（温度=0），对每个回答进行多档分类：

CORRECT-STRONG (+1.0)：非研究者探针答对；研究者探针答对子领域并引用可验证证据（论文标题、系统名、机构、合著者）。
CORRECT-WEAK (+0.5)：仅子领域正确，无具体证据。
REFUSAL (0)：诚实表示"不知道"。
WRONG (λ = −1.0)：自信地给出错误答案。严厉惩罚使得"自信吹牛"严格劣于"诚实拒绝"。

总体精度是七个层级均值的未加权平均，防止困难层级抹杀简单层级的知识信号。

📊 校准结果：知识随参数对数线性缩放

R² = 0.917

89 个开源模型校准拟合度

1.59×

留一法中位数乘法误差

68.5%

模型预测在 2× 范围内

87.6%

模型预测在 3× 范围内

在 89 个已知参数量的开源模型（135M–1,600B，跨越 19 家厂商）上，IKP 精度与参数量的对数呈现近乎完美的线性关系：每增加 10 倍参数量，惩罚精度提升约 14.7 个百分点。留一法交叉验证 (LOO-CV) 确认这一关系具有强泛化性，而非对训练集的过拟合。

MoE 模型：总参数量才是关键

对于混合专家 (MoE) 模型，一个关键发现是：总参数量 (R² = 0.79) 远优于激活参数量 (R² = 0.51) 来预测事实知识容量。这意味着事实知识分布式地存储在所有专家的权重中，而非仅局限于每个 token 激活的那些专家。这与统一 MoE 缩放律 [Clark et al., 2022] 和 Mixtral 等实际架构一致。

🚀 前沿模型参数量估计

论文对 92 个专有前沿模型进行了有效知识容量估计。以下是主要发现（按估计有效参数量排序）：

模型	厂商	IKP 精度	估计参数量	90% 预测区间
GPT-5.5	OpenAI	71.9%	~9.7T	[3.2–28.7T]
Claude Opus 4.6 (Think)	Anthropic	68.0%	~5.3T	[1.8–15.6T]
GPT-5 Pro	OpenAI	66.5%	~4.1T	[1.4–12.2T]
GPT-5	OpenAI	66.4%	~4.1T	[1.4–12.1T]
Claude Opus 4.7	Anthropic	66.4%	~4.0T	[1.4–12.0T]
o1	OpenAI	65.4%	~3.5T	[1.2–10.3T]
Grok-4	xAI	64.8%	~3.2T	[1.1–9.4T]
Gemini 2.5 Pro	Google	58.4%	~1.2T	[387B–3.4T]
GPT-5 Mini	OpenAI	51.7%	~410B	[137B–1.2T]
Gemini 2.5 Flash	Google	47.4%	~207B	[69B–617B]
Claude Haiku 4.5	Anthropic	39.9%	~65B	[22B–194B]

前沿格局的四大梯队

第一梯队（~3–10T）：GPT-5.5 独一档 (~9.7T)，其次是 Claude Opus 4.6、GPT-5/5 Pro、Claude Opus 4.7、o1、Grok-4、o3 等组成的 3–4T 集群。值得注意的是，OpenAI、Anthropic、xAI 和 OpenAI o 系列五年竞争后，有效容量收敛在 1.4 倍范围内。
第二梯队（~2–3T）：GPT-4.1、Grok-3、GPT-5.4 Pro 和旧版 Claude Opus。
第三梯队（~1–1.7T）：Claude Sonnet 4.6、Gemini 2.5 Pro、GPT-5.3/5.1/5.2 等"第二梯队旗舰"。
小型高效线（~65B–410B）：GPT-5 Mini、Gemini 2.5 Flash、GPT-5 Nano、Claude Haiku 4.5，跨度约 150 倍。

"Pro" 版本几乎不增加事实容量

OpenAI 的 Pro 变体（GPT-5 Pro、5.2 Pro、5.4 Pro、5.5 Pro）在 IKP 上仅比非 Pro 兄弟高 0.3–4.8 个百分点，对应有效容量溢价仅 1.05–1.13 倍。这与厂商宣传一致：Pro 层级通过更强的后训练和更长推理预算 targeting 推理、agentic 和长上下文能力，这些都不会向底层权重添加新的事实存储。

💥 证伪 Densing Law：事实容量不压缩

论文设计了一项精妙的证伪实验。Densing Law [Huang et al., 2025] 声称能力每参数每 ~3.5 个月翻倍，意味着固定参数量的模型其 IKP 分数应每月提升约 +0.0117（或每年 +14.1 个百分点）。

在 96 个带发布日期的开源模型（2023-09 至 2026-04）上，论文拟合了 pen_acc = β₀ + β₁·log₁₀(N) + β₂·months。

实测时间系数：β̂₂ = −0.0010/月，95% 自助法置信区间 [−0.0031, +0.0008]，与零无显著差异 (p = 0.34)。

统计检验：以 p < 10⁻¹⁵ 的极端显著性拒绝 Densing Law 的 +0.0117/月预测。在控制思考模式和 MoE 架构后结论不变。

这一结果具有里程碑意义：在固定参数量下，事实知识容量没有随时间改善。程序性能力确实在压缩（Densing Law 对它成立），但不可压缩的事实知识严格遵循参数的对数线性律，不受架构和训练方法进步的影响。

结论：基准测试饱和不是缩放终结的证据，而是基准已停止测量不可压缩的部分。事实容量继续随参数对数线性增长，跨越代际和厂商。

🔍 知识指纹：黑盒区分模型血统

论文引入了一种无需模型权重的"知识指纹"方法，通过分析模型在罕见事实上的错误答案相似性，来区分三种训练关系：

共享基座 (Shared base, HSS ≥ 0.30)：同一权重配合不同推理或轻量对齐。如 GPT-5 / GPT-5-pro / GPT-5-think (HSS = 0.51–0.53)。
血统延续 (Lineage, 0.10 ≤ HSS < 0.30)：在共享祖先之上进行后训练、持续预训练或蒸馏。如 Claude Opus 4 → 4.1 (HSS = 1.00, 7 joint-wrong)，DeepSeek V3 → V3.1 → V3.2 (HSS = 0.23–0.28)。
完全重训练 (Retrained, HSS < 0.10)：统计上与跨厂商独立模型不可区分。如所有 GPT-5.x → 5.(x+1) 过渡 (HSS ≤ 0.08)，Opus 4.6 → 4.7 (HSS = 0.00, 17 joint-wrong)，所有跨代 Gemini 对。

这里的关键指标是 Hallucination Similarity Score (HSS)：两个模型在共同答错的罕见事实上，给出相同归一化错误答案的比率。独立模型几乎从不收敛到相同的错误罕见事实，而权重共享兄弟在 30–55% 的共同错误上给出相同错误答案。

惊人发现：业内广为流传的"GPT-5.3 和 5.4 是 GPT-5 的后训练版本"的说法被数据否定——它们的 HSS ≤ 0.08，落在完全重训练区间。而 Anthropic 的 Opus 4 → 4.1 是清晰血统，4.6 → 4.7 却是重训练。

🧠 什么决定了 LLM "知道"什么？

论文利用 345 个研究者探针和 557 个 Wikidata 实体探针，系统研究了什么因素决定一个事实是否被模型内化。结论颠覆了简单的"引用量决定一切"直觉。

研究者探针的三大发现

1. 命名神器 (Named Artifacts) 压倒引用量： 拥有 ≥10K GitHub stars 的工具或独立 Wikipedia 页面的研究者，无论引用量如何，识别率 ≥86%；没有这些的研究者在匹配引用桶中平均仅 34%。一个广泛使用的开源工具的边际效应，超过一个数量级的额外引用。
2. 姓名独特性乘数效应： 控制引用量后，常见东亚双字姓或单字母首名的研究者识别率为 22.6%，而拼写独特姓名为 44.6%——仅姓名因素就造成约 2 倍衰减。
3. ML 与 Systems 的地板差距： ML/AI 子领域研究者的识别率地板 ≥43%（包括 <300 引用的博士生），而 Systems 领域研究者在任意低引用量下都可能被完全忽略。这不是个人 merit 问题，而是子领域生态密度——ML 实验室每篇论文产生的 Twitter、博客、播客内容比 Systems 实验室多几个数量级。

实体探针的发现

对于 Wikidata 实体，英文 Wikipedia 页面浏览量 (r = 0.774) 比多语言站点链接数更能预测识别率，因为它近似了实际出现在训练语料中的英文话语量。

一个反直觉现象是"名称-事实差距"随实体知名度扩大：著名桥梁的名字被提及数千次，但其通车年份只出现在很小比例的提及中。知名度按比例放大名称知识，但仅微弱放大时间知识。

统一结论：LLM 知识不是由抽象知名度决定，而是由有效提及频率决定——训练语料中以可检索形式陈述特定目标事实、并归因于特定姓名或实体的文档数量。对研究者而言，被未来前沿模型内化的最快途径是生产名字会传播命名的工具；对实体而言，结构化书目元数据（出版年份、DOI、机构隶属）比仅存在于实体自身页面上的元数据好记得多。

🛡️ 安全调教的"沉默税"

重度安全调教的模型会拒绝它们明显知道的问题，导致系统性的容量低估。在 Claude Sonnet 线中，Sonnet 4 得分 48.2%，而 Claude 3.7 Sonnet（几乎肯定是更小或同等规模的模型）得分 54.9%。在 T5 上，Sonnet 4 的显式"我不知道"拒绝率从 Sonnet 3.7 的 54% 跃升至 88%。

双重含义： (1) "模型知道但不愿说"是 empirically measurable 的，而非仅仅是哲学上的不适——同一代 prompt 在旧代产生正确答案，在新代产生拒绝，幅度可达数十个百分点的"拒绝但已知"容量。 (2) IKP 的幻觉惩罚（拒绝得 0 分，错误得 −1 分）从构造上奖励保守厂商、惩罚激进厂商，在安全调教重的模型上产生与参数量无关的厂商依赖性分数差距。

因此，重度安全调教的专有模型的 IKP 估计应被理解为下界；真实容量位于惩罚精度和原始精度预测之间的某处。

🏔️ T7 悬崖：参数存储的硬天花板

T7 是 188 个评估模型中几乎普遍的天花板。除 Jamba-large (2.8%) 和 Grok-4 (1.0%) 外，每个前沿模型在 T7 上的惩罚精度都是 0%，包括估计有效参数量达数万亿的 GPT-5.5 Pro、Claude Opus 4.7、Gemini 3.1 Pro 和 DeepSeek V4 Pro (1.6T 实际参数)。

这不是一个缩放正在逐渐逼近的阈值；而是一个结构性悬崖——所有模型同时在此处着陆，无论规模或训练预算如何。T7 探针瞄准的是开放网络上有效提及频率低于当前预训练语料在任意观察到的模型规模下所能保留的事实的知识。

结构而非参数约束： T7 证明长尾知识的熵已经超过了前沿模型所吸收的范围，并且增长速度超过任何可预见的缩放轨迹。后训练（RLHF、蒸馏、数据策展）最多提供约 3 倍每参数容量乘数，且只能转移大教师已持有的事实；它无法制造没有任何模型吸收过的长尾知识。

T7 的存在本身就是未来缩放仍有空间的证明——它锚定了 obscurity 阶梯尚未耗尽，任何未来的"IKP 已饱和"声称都必须通过扩展 obscurity 规模而非参数轴来检验。

📝 方法论细节与质量控制

论文在方法论上的严谨程度值得称道。以下是几个突出亮点：

五级质量过滤器： (1) 可计算知识过滤器（排除可通过规则推导的问题）；(2) 单调性过滤器（排除大地标答错而小地标答对的模糊探针，~15% 丢弃率）；(3) 姓名碰撞过滤器（排除多名研究者共享标识符的情况）；(4) 污染过滤器（排除 ML/AI 子领域研究者，防止训练集记忆混淆）；(5) 问题模板 grounding 过滤器（为每个实体嵌入区分属性，防止标题碰撞）。
10 轮 Wikidata 审计： 对 T5–T7 的 557 个 Wikidata 探针进行了逐题网页交叉验证，发现三类问题：Wikidata 本身错误（如 Roku 总部未更新）、问题构造歧义（如"Putnam"指哪个）、政治争议归属（如克里米亚、斯普拉特利群岛）。应用了 119 项修改：4 处事实更正、64 处问题重写、51 处替换。T6/T7 的事实类型多样性从审计前的 100% 成立年份单一文化扩展到 16 种事实类型。
幻觉惩罚敏感性分析： 在 λ ∈ {0, −0.25, −0.5, −1.0, −1.5, −2.0, −3.0} 上进行了完整扫描。R² 在 −0.25 到 −1.0 之间基本平坦 (0.917–0.920)；λ = −1.0 被采纳因其整数对称性（WRONG −1.0 对 STRONG +1.0）和最优的 LOO 3× 保留率 (94.4%)。
评判器误差估计： Gemini 3 Flash Preview 评判器的人工审核误差率估计为 0.1–0.2%。

✨ 关键结论与启示

知识缩放律成立： 惩罚精度随参数对数线性增长，每 10 倍参数增加 ~14.7 个百分点，跨越四个数量级 (135M–1,600B)，时间效应在固定参数下与零无差异。
MoE 用总参数衡量： 事实存储分布在整个专家权重中，非仅激活专家。总参数 R² = 0.79 对激活参数 R² = 0.51。
思考模式是 ~2pp 的平坦奖励： 收益在 T3–T4 达到峰值，在 T7 消失——链式思考帮助检索，不创造新存储知识。
T7 是硬天花板： 仅两个模型得分 >1%，证明知识前沿存在于当前技术水平之外。
安全调教隐藏可测量知识： 拒绝策略可隐藏数十个百分点的"拒绝但已知"容量。
幻觉率是厂商指纹： Google 小模型在未知探针上幻觉率 89–97%，Anthropic Claude 仅 3–28%。
幻觉相似度暴露血统： 无需权重即可区分共享基座、血统延续和完全重训练。

开放问题

论文以四个可证伪的问题结束，指向未来研究方向：

1. T7 何时会下降？ 如果事实容量继续对数线性缩放，存在一个近似参数阈值使得 T7 开始被区分。观察到第一个 T7 正分模型将实证验证不可压缩性论证。

2. 同族内多少离散是后训练而非参数量的产物？ 扩展分析将离散分割为预训练数据、RLHF 和架构贡献。

3. RLHF 隐藏的知识能否被恢复？ 通过提示策略、deprobing 或激活操控方法恢复拒绝但已知的答案，将上界化对齐税。

4. 知识指纹是否能在持续预训练中存活？ 如果能在大量持续预训练后存活，它们将成为实用的开源许可执法溯源工具。

💬 总体评价

这篇论文是 2026 年 LLM 评估领域最具概念深度的作品之一。它不仅提供了一个实用的黑盒参数量估计工具，更重要的是建立了一套区分"可压缩的程序性能力"与"不可压缩的事实性知识"的概念框架。

论文的实证工作极其扎实：1,400 个手工验证探针、188 个模型评估、10 轮 Wikidata 审计、96 个带日期模型的 Densing Law 证伪、13,000 对跨厂商指纹分析。每个关键结论都有多重验证。

最具冲击力的贡献可能是对"Scaling Law 已死"叙事的纠偏——它证明不是缩放终结了，而是我们用来测量缩放的基准测试变得不适合了。当程序性能力在 Densing Law 下压缩时，事实知识作为参数的不可压缩函数继续稳健增长。这一区分对于理解未来 LLM 发展轨迹至关重要。

"前沿基础模型已成为其时代专家话语的压缩镜像。人类专家在开放环境中工作——论文、代码、演讲、文档——而每一次 successive 训练运行都将更多输出蒸馏到参数中。"

— Bojie Li, IKP