追本之箭 — 衡量成长
追本之箭 — 衡量成长
2026-06-05 Thu 12:28
起点
"如何衡量个人成长?我发现了三个有趣的衡量标准:变化率、解决问题的时间、未来选择的数量。"
朴素的读法:这是三块表,像体重秤——站上去,读数字,越大越好。
但这句话里藏着一个没说出口的承认:
这三块表,没有一块直接显示"成长"。
体重可以读取,成长不能——它是隐变量,你测到的,永远是它投在墙上的三个影子。
这句话真正的杠杆不在"挑了哪三个指标",
在它默认了一件狠事:成长只能被估计,不能被读取。
命门:既然只能估计——为什么偏偏是这三个影子?影子什么时候撒谎?
第一层 · 隐变量
先把"测量"这件事本身钉死。
你能观测到的,只有输出:今天做成了什么、用了多久、面前摆着几条路。
产生这些输出的那个内部状态——模型、能力、判断力——一只眼睛都看不到。
这是控制论的标准困境:状态 x 不可见,只有输出 y 可见,y = 观测(x) + 噪声。
工程师对这种东西的称呼很冷静:隐变量。对隐变量只有一种合法操作——状态估计:从带噪声的输出,反推看不见的状态。
单表必死,死法两种:
- 噪声:解题快,可能只是题目碰巧熟、运气碰巧好。
- 操纵:三块表都能刷——挑软题做(解题时间↓)、来回折腾(变化率↑)、什么都不承诺(选择数量↑)。
所以三个指标的真实价值,从来不是"三项并列的 KPI"——
是三角测量:三个独立方向的影子,拼一个立体的估计。一根线定不了一个点,三根可以。
第二层 · 三表盘
镜头拉低一层:把人当一台学习系统看。
一台学习系统,从外面看只有三件事可说:学得多快、算得多省、管得多宽。
变化率 → 训练速度(参数在动的速率)
解决问题的时间 → 推理效率(内部模型与问题结构的匹配度)
未来选择的数量 → 泛化半径(你的模型管得住的分布有多宽)
不是随手挑的三个——是学习系统仅有的三个输出口。这就是第一层那个"凭什么"的答案。
第二块表里藏着硬机制。解题 = 搜索,搜索时间 ~ b^d(b 分支因子,d 深度)。
好模型不让你"快一点"——它剪 b。
b 从 10 剪到 3,一道十层深的题:10^10 / 3^10 ≈ 17 万倍。
所以专家不是比你快 50%,是快几个数量级。
解题时间是模型质量的指数表,不是线性表——模型每好一分,表上是一截断崖。
这也是它配进仪表盘的资格:指数放大,小信号看得见。
第三块表也有真身。物理那边有人把智能直接定义为最大化未来路径熵的力(Wissner-Gross & Freer, Causal Entropic Forces, PRL 2013):聪明的系统,自发移向未来可能性最多的状态。"未来选择的数量",就是这个熵的民用读数。
第三层 · 压缩
解题时间变短,只有两种来源,中间没有第三条路:
缓存:把见过的题和答案存成表。查表 O(1),快到极限——只覆盖见过的题。
压缩:找到生成这一类题的更短的程序。规律到手——没见过的题,一样剪 b。
缓存让你在旧分布里快,压缩让你在新分布里快。成长只指后者。
这不是比喻,有公式。Schmidhuber 把学习系统的内在进步直接定义为压缩量的下降:
Progress(t) = C(t−1) − C(t) ——你对同一个世界的描述,今天比昨天短了多少(Schmidhuber, 形式化创造力理论, 2010)。
变化率的真假在这里同源分叉:参数在抖 ≠ 描述在短。 瞎忙,是前者冒充后者。
更狠的是实验级证据:记忆和泛化在时间上可以分离。
Grokking 实验(Power et al. 2022):小网络先把训练集背得滚瓜烂熟——训练损失早早归零——而泛化在之后很久才突然相变出现。
翻成人话,这是给所有自测者的两记警告:
表会先给你假阳性:背熟了,三表全绿,其实没懂。
再给你假阴性:表纹丝不动的静默期,理解正在地下成形。
三块表对"成长"这个信号,有相位差。读表时机错了,结论方向会反。
第四层 · 测不准
因为这块表,在逻辑上造不出来。
C 的学名是 Kolmogorov 复杂度:生成你全部行为的最短程序的长度。
定理:K 不可计算——不存在任何算法,能对任意对象给出最短描述(归约到停机问题;Chaitin 的不完备性定理把门焊死)。
你永远不能证明"这已经是最短的了",只能不断找到更短的上界。
所以:
成长的真值,原则上不可读取。
一切成长指标都必然是 proxy——不是仪器还不够好,是逻辑禁止完美测量。
还有一层更刁的:测量者就是被测系统。
评估你压缩进步的那台压缩器,是你自己。于是出现尺度漂移:
你每长高一截,打分的尺跟着重标定——旧题在新模型里变成"显然",回头看只剩"那时候真蠢",读不出"我变强了"。
越成长,越觉得自己没成长——因为尺和人一起变长。
裁判和选手是同一个人,这场比赛,逻辑上不存在中立计时器。
到底了:再问"为什么测不准",答案只剩"因为测的人在测自己"——自指,同义反复,下面没有了。
终点:不读取,做估计
先排掉对称陷阱:"既然测不准,干脆不测"——这不是中立,是把尺外包。
不自己测的人,默认接管他的是环境的尺:薪资、头衔、同龄人进度、年龄。
那些尺更糙、更可刷,而且从来不是为你校准的。
测不准的正确反应,是工程师对一切隐变量的反应:不读取,做估计。
估计协议 · 三条铁规
① 三表同读,单表作废。 任何一块表单独的读数没有信息量(噪声 + 可刷)。只接受三表方向一致的信号。
② 每表配一个假阳性检验:
| 表 | 假阳性长相 | 检验 |
|---|---|---|
| 变化率 | 参数在抖,描述没短 | 换个领域:上季度长的东西,迁移得过去吗? |
| 解题时间 | 缓存命中,不是压缩 | 拿一道同类但没见过的题:还快吗?(held-out) |
| 选择数量 | 脑内选项,不可执行 | 只数"今天就能走、且真敢走"的路,不数想象的 |
③ 采样节律对齐信号频率。 成长是季度级的低频信号;天天读表,读到的全是噪声,还会喂大"把表刷绿"的冲动。一季一读,三表同读。
静默期条款(grokking 预算)
三表全平 ≠ 没成长。给地下成形期一个季度的预算,期间不看输出表,只查一个刷不了的领先指标:
这个季度,有没有哪个旧问题,突然变"显然"了?
旧题变显然 = 描述长度刚掉了一格——压缩的直接证据,而这块表没法作弊。
一个外部锚
自指测不准,就借一个不可操纵的外部校准点:
别人愿意付出真实代价(钱、股权、时间)请你解的问题,今年比去年难了吗?
市场不在乎你的仪表盘。它只为压缩付费。
最后一句
这三个指标最聪明的地方,不是它们测得准——是它们承认了测不准:
成长是隐变量,三个影子定一个估计;
缓存会撒谎,压缩不会;
而最后那块"真值表",逻辑上永久缺货——
因为量尺的和被量的,是同一个正在变长的人。
(箭到底了。)
