← 返回列表

追本之箭 — 衡量成长

2026-06-05 · 4 层下钻

追本之箭 — 衡量成长

2026-06-05 Thu 12:28


起点

"如何衡量个人成长?我发现了三个有趣的衡量标准:变化率、解决问题的时间、未来选择的数量。"

朴素的读法:这是三块表,像体重秤——站上去,读数字,越大越好。

但这句话里藏着一个没说出口的承认:

这三块表,没有一块直接显示"成长"。

体重可以读取,成长不能——它是隐变量,你测到的,永远是它投在墙上的三个影子。

这句话真正的杠杆不在"挑了哪三个指标",

在它默认了一件狠事:成长只能被估计,不能被读取。

命门:既然只能估计——为什么偏偏是这三个影子?影子什么时候撒谎?


第一层 · 隐变量

先把"测量"这件事本身钉死。

你能观测到的,只有输出:今天做成了什么、用了多久、面前摆着几条路。

产生这些输出的那个内部状态——模型、能力、判断力——一只眼睛都看不到。

这是控制论的标准困境:状态 x 不可见,只有输出 y 可见,y = 观测(x) + 噪声。

工程师对这种东西的称呼很冷静:隐变量。对隐变量只有一种合法操作——状态估计:从带噪声的输出,反推看不见的状态。

单表必死,死法两种:

所以三个指标的真实价值,从来不是"三项并列的 KPI"——

三角测量:三个独立方向的影子,拼一个立体的估计。一根线定不了一个点,三根可以。

裂缝:三角测量有个前提——三根线必须打在同一个东西上。这三个影子,各自连着隐变量的哪根线?凭什么是这三个,不是别的?

第二层 · 三表盘

镜头拉低一层:把人当一台学习系统看。

一台学习系统,从外面看只有三件事可说:学得多快、算得多省、管得多宽。

变化率         → 训练速度(参数在动的速率)
解决问题的时间  → 推理效率(内部模型与问题结构的匹配度)
未来选择的数量  → 泛化半径(你的模型管得住的分布有多宽)

不是随手挑的三个——是学习系统仅有的三个输出口。这就是第一层那个"凭什么"的答案。

第二块表里藏着硬机制。解题 = 搜索,搜索时间 ~ b^d(b 分支因子,d 深度)。

好模型不让你"快一点"——它剪 b

b 从 10 剪到 3,一道十层深的题:10^10 / 3^10 ≈ 17 万倍

所以专家不是比你快 50%,是快几个数量级。

解题时间是模型质量的指数表,不是线性表——模型每好一分,表上是一截断崖。

这也是它配进仪表盘的资格:指数放大,小信号看得见。

第三块表也有真身。物理那边有人把智能直接定义为最大化未来路径熵的力(Wissner-Gross & Freer, Causal Entropic Forces, PRL 2013):聪明的系统,自发移向未来可能性最多的状态。"未来选择的数量",就是这个熵的民用读数。

裂缝:但机器学习有个著名的鬼故事——三块表可以同时虚高。训练损失狂降(变化率↑)、训练集上秒答(解题时间↓)、见过的题全覆盖(选择↑),然后在一道新题面前当场归零。过拟合:三根线打在了一个假目标上。真学习和背答案,从表上怎么分?

第三层 · 压缩

解题时间变短,只有两种来源,中间没有第三条路:

缓存:把见过的题和答案存成表。查表 O(1),快到极限——只覆盖见过的题。
压缩:找到生成这一类题的更短的程序。规律到手——没见过的题,一样剪 b。

缓存让你在旧分布里快,压缩让你在新分布里快。成长只指后者。

这不是比喻,有公式。Schmidhuber 把学习系统的内在进步直接定义为压缩量的下降:

Progress(t) = C(t−1) − C(t) ——你对同一个世界的描述,今天比昨天短了多少(Schmidhuber, 形式化创造力理论, 2010)。

变化率的真假在这里同源分叉:参数在抖 ≠ 描述在短。 瞎忙,是前者冒充后者。

更狠的是实验级证据:记忆和泛化在时间上可以分离

Grokking 实验(Power et al. 2022):小网络先把训练集背得滚瓜烂熟——训练损失早早归零——而泛化在之后很久才突然相变出现。

翻成人话,这是给所有自测者的两记警告:

表会先给你假阳性:背熟了,三表全绿,其实没懂。

再给你假阴性:表纹丝不动的静默期,理解正在地下成形。

三块表对"成长"这个信号,有相位差。读表时机错了,结论方向会反。

裂缝:既然真身是 C(t),那别绕了——直接测压缩量不就行了?为什么市面上没有一块表,直接显示"你今天压缩了多少"?

第四层 · 测不准

因为这块表,在逻辑上造不出来。

C 的学名是 Kolmogorov 复杂度:生成你全部行为的最短程序的长度。

定理:K 不可计算——不存在任何算法,能对任意对象给出最短描述(归约到停机问题;Chaitin 的不完备性定理把门焊死)。

你永远不能证明"这已经是最短的了",只能不断找到更短的上界

所以:

成长的真值,原则上不可读取。

一切成长指标都必然是 proxy——不是仪器还不够好,是逻辑禁止完美测量。

还有一层更刁的:测量者就是被测系统。

评估你压缩进步的那台压缩器,是你自己。于是出现尺度漂移:

你每长高一截,打分的尺跟着重标定——旧题在新模型里变成"显然",回头看只剩"那时候真蠢",读不出"我变强了"。

越成长,越觉得自己没成长——因为尺和人一起变长。

裁判和选手是同一个人,这场比赛,逻辑上不存在中立计时器。

到底了:再问"为什么测不准",答案只剩"因为测的人在测自己"——自指,同义反复,下面没有了。

裂缝:测不准是逻辑死刑,改判无望。那这三块表,还挂不挂?怎么挂?

终点:不读取,做估计

先排掉对称陷阱:"既然测不准,干脆不测"——这不是中立,是把尺外包。

不自己测的人,默认接管他的是环境的尺:薪资、头衔、同龄人进度、年龄。

那些尺更糙、更可刷,而且从来不是为你校准的。

测不准的正确反应,是工程师对一切隐变量的反应:不读取,做估计。

估计协议 · 三条铁规

① 三表同读,单表作废。 任何一块表单独的读数没有信息量(噪声 + 可刷)。只接受三表方向一致的信号。

② 每表配一个假阳性检验:

假阳性长相检验
变化率参数在抖,描述没短换个领域:上季度长的东西,迁移得过去吗?
解题时间缓存命中,不是压缩拿一道同类但没见过的题:还快吗?(held-out)
选择数量脑内选项,不可执行只数"今天就能走、且真敢走"的路,不数想象的

③ 采样节律对齐信号频率。 成长是季度级的低频信号;天天读表,读到的全是噪声,还会喂大"把表刷绿"的冲动。一季一读,三表同读。

静默期条款(grokking 预算)

三表全平 ≠ 没成长。给地下成形期一个季度的预算,期间不看输出表,只查一个刷不了的领先指标:

这个季度,有没有哪个旧问题,突然变"显然"了?

旧题变显然 = 描述长度刚掉了一格——压缩的直接证据,而这块表没法作弊。

一个外部锚

自指测不准,就借一个不可操纵的外部校准点:

别人愿意付出真实代价(钱、股权、时间)请你解的问题,今年比去年难了吗?

市场不在乎你的仪表盘。它只为压缩付费。

最后一句

这三个指标最聪明的地方,不是它们测得准——是它们承认了测不准:

成长是隐变量,三个影子定一个估计;

缓存会撒谎,压缩不会;

而最后那块"真值表",逻辑上永久缺货——

因为量尺的和被量的,是同一个正在变长的人。


(箭到底了。)


衡量成长 漫画卡
点击查看大图

💬 评论