追本之箭 — 为学日益为道日损

2026-04-16 · 5 层下钻

追本之箭 — 为学日益为道日损

2026-04-16 Thu 11:01

起点

《道德经》第四十八章:"为学日益,为道日损。损之又损,以至于无为。无为而无不为。"

最常见的读法把它供成生活美学:断舍离、少即是多、放下执念。

这样读,八个字就死了——又一句劝你"别太卷"的安慰。

掀翻它:这不是心态建议,是一条工程规格。

在所有已知的学习系统里——大脑、统计模型、科学共同体——

从"记住"到"会用",只有一条已知通路:压缩。

"损"不是"学"的反方向,是"学"的第二道工序,

而且是唯一能产出泛化的那道:让你在没见过的局面里依然正确。

隐藏杠杆在这里:定义你的,不是你装进了什么,而是删完之后还剩什么。

命门也在这里:删错了怎么办?你怎么知道删掉的是冗余,还是命根?

第一层 · 可见性

为什么整个文明默认"益"?

因为知识的市场只能给加法定价。

学历、证书、读书量、收藏夹、信息流——全部可计量、可展示、可出售。

损发生在脑内:不可见、不可考核、写不进简历。

一个人删掉了三个错误模型,世界看不见;

一个人多考了一张证书,世界立刻看见。

于是激励结构系统性地补贴采集、漏记压缩。

"学习"被悄悄重定义成了"摄入"。

庄子早把账算过:"吾生也有涯,而知也无涯。以有涯随无涯,殆已。"(《庄子·养生主》)

有限带宽追逐无限信息,不是勤奋,是结构性必败。

但激励只解释了偏好,没碰到要害——

裂缝：就算没人补贴,"益"自己为什么造不出"会"?加法多到什么程度,会从资产翻成负债?

第二层 · 过拟合

统计学给这个翻转起了名字:overfitting(过拟合)。

一个模型参数足够多,可以记住训练集的每一个细节——

样本内完美,样本外崩溃。

它没有学到规律,它把噪声背了下来。

硬机制一条:

泛化误差 = bias² + variance + 不可约噪声

一味加参数(为学日益):bias 降,variance 升——

你在见过的局面里越来越准,在没见过的局面里越来越脆。

知识也是参数。

读过一万个案例仍不会决策的人,就是一台过拟合的人肉模型:

每个案例都记得,每个新局面都瘫痪。

博尔赫斯写过极限版本:《博闻强记的富内斯》里那个忘不掉任何细节的人,恰恰因此无法思考——"思考是忘记差异,是概括,是抽象。"

完美的记忆 = 零抽象 = 零智能。

统计学的解法叫正则化(regularization):在损失函数里给参数加惩罚项,强行做减法。

模型的"损"不是态度,是写进目标函数里的一项。

对称陷阱在此埋下:损也有失败模式——欠拟合。

减过头,bias 飙升,你把世界硬塞进三句口号。

教条,就是压缩过度之后拒绝解压的人。

裂缝：正则化只说"要减",没说"减什么、留什么"。随便删是失忆,不是道。减法的选择标准是什么?

第三层 · 压缩

信息论给出精确答案。

MDL 原则(Minimum Description Length,Rissanen 1978):

最优模型 = 让「模型自身编码长度 + 数据在该模型下的残差编码长度」最短的那个。

min L(M) + L(D|M)

翻译:"损"损的从来不是数据,是冗余。

你不是删经验,是找到一个能把全部经验重新生成出来的更短程序。

删掉一千个例子,留下那个能生出一千个例子的生成器。

这就是失忆与抽象的分界线:

失忆 = 删了数据,程序没变短;

抽象 = 数据可丢,因为程序能把它们生回来。

更深一步:压缩 = 预测。

Shannon 编码定理的直接推论——预测得越准,编码越短,两者在数学上是同一件事。

(Hutter Prize 拿这个等式直接悬赏:压得动 enwik 语料,就是在逼近通用智能。)

于是"道"第一次有了可操作的定义:

道 = 能重新生成你全部经验的最短程序。

为道日损 = 逼近这个程序的过程(逼近 Kolmogorov 复杂度)。

而"为学日益"由此获得验收标准:

一个知识如果没让你的世界模型变短,它就还没被学完——只是被搬运了。

bear case 也在这层现形,两种假货:

假益:把知识外包给搜索和 AI——缓存外置,程序没短,只是看起来轻;

假损:跳过"益"直接"损"——没有数据就做压缩,压出来的不是道,是口号(民科都极简)。

老子把顺序写死了:先"为学日益",后"为道日损"。没有原料的压缩机,空转。

裂缝：统计模型可以不压缩——堆参数就行,大力出奇迹。人为什么不行?谁规定大脑必须做减法?

第四层 · 瓦特

物理规定的。

你的大脑功率约 20 瓦——一颗昏暗的灯泡,跑着对整个世界的实时预测。

Landauer 原理(1961):擦除一比特信息,至少耗散 kT·ln2 的能量。

信息是物理的。记忆、计算、维护每一条突触,都在付能量账。

在 20 瓦的预算内运行无限复杂的世界模型?物理不批。

所以压缩不是大脑的美德,是大脑的生存条件。

Friston 的自由能原理(free energy principle)把这件事推到底:

大脑全部工作可概括为一件事——最小化预测误差(surprise);

而长期最小化的唯一手段,就是改进生成模型——也就是压缩。

"无为"在这一层显出物理学的脸:

当你的模型与环境的生成结构同构,预测误差趋近于零——

行动不再需要在线推理,输入直接落成输出。

无为,不是不动;是零摩擦。

无为而无不为:推理成本最低的模型,恰好是泛化最广的模型——

它在任何新局面里都直接给出动作。不是玄学,是同一条数学的两面。

但要按住一个对称陷阱(Ashby 的钉子):

必需多样性定律(Law of Requisite Variety,Ashby 1956)——调节器的复杂度不能低于被调节环境的复杂度。

损有下界。 压到比世界还简单,模型不是清晰,是瞎。

损的目标是"最短的够用程序",不是"最短的程序"。

裂缝：整套论证压着一个没人审过的前提——压缩之所以可能,是因为被压的东西可压。随机噪声不可压缩。凭什么世界可压?

第五层 · 可压性

这一问,箭碰到了底。

世界确实可压——这是物理学最惊人的实证事实:

几页纸的方程,生成全部已观测现象。

Wigner(1960)称之为"数学在自然科学中不合理的有效性"。

道之所以可逼近,是因为宇宙先把自己写短了。

但再往下问"为什么世界可压缩"——

注意每一个候选答案的形状:上帝、人择原理、数学宇宙……

每一个答案,本身又是一次压缩:用更短的描述去覆盖"世界是短的"这个事实。

解释可压缩性的行为,预设了可压缩性。

问题开始吞自己的尾巴——同义反复出现,这是箭能到的最深处。

逻辑还补了最后一刀。

Chaitin 不完备定理(Gödel 的算法信息论版本):一个复杂度为 N 的形式系统,无法证明任何具体对象的 Kolmogorov 复杂度远超 N——

系统在自身内部,说不出"最短程序"是什么,甚至说不出自己是否已经找到它。

终极压缩,不可被自我陈述。

《道德经》第一章在两千多年前写下同一条定理:道可道,非常道。

能被你说出来的那个最短程序,必定还不是最短的。

所以"损之又损"没有终点站,只有渐近线。

无为不是一个可以抵达然后退休的状态,是一个方向。

裂缝：渐近线没法住人。落回地面——明天早上,这支箭怎么用?

终点:压缩比,不是阅读量

到底之后,能带回地面的是一把尺:别再量你摄入了多少,量你的压缩比。

验收一问(每次学完任何东西)

我的世界模型,变短了还是变长了?

变短(几个旧模型合并成一个更深的)→ 这次"学"完成了。

变长(又多一条平行的、互不打通的知识)→ 只完成了搬运,损的工序还欠着。

诊断表:四种假象

你以为你在	检验	它其实是
学习(疯狂摄入)	模型变短了吗?没有	采集,过拟合在路上
极简 / 抓大放小	删掉的例子能被剩下的原则生回来吗?不能	失忆,不是抽象
直击本质 / 一句话讲透	经过足量"益"吗?没有	口号(无原料的压缩机)
知识渊博(外挂 AI / 搜索)	断网还在吗?不在	缓存外置,程序没短

压缩工序(可执行循环)

采集到冗余浮现为止——同一个结构第三次在不同领域出现,就是压缩信号。
命名那个结构。给不出名字 = 还没看见生成器。
删例子,留生成器。检验:用生成器把删掉的例子重新推一遍;推不出 → 删早了,解压重学。
拿一个完全没见过的案例测泛化。失败 → 回到 1。这是防教条的唯一闸门(Ashby 下界:别压到比世界还简单)。

两个触发器

听到自己说"这个我知道"超过三次而行为没变 → 知识在缓存里,不在程序里,启动压缩工序。
发现自己用同一句口号解释一切 → 欠拟合警报,解压:回去补"益",找反例。

最后一句

为学日益,是把世界装进来。

为道日损,是把装进来的世界写短。

装而不写,是仓库;

写而不装,是口号。

道,是那个能把你全部经验重新生成出来的最短程序——

你说不出它(道可道,非常道),

但每删对一行,你就轻一点,快一点,准一点。

(箭到底了。)

追本之箭 — 为学日益为道日损

追本之箭 — 为学日益为道日损

起点

第一层 · 可见性

第二层 · 过拟合

第三层 · 压缩

第四层 · 瓦特

第五层 · 可压性

终点:压缩比,不是阅读量

验收一问(每次学完任何东西)

诊断表:四种假象

压缩工序(可执行循环)

两个触发器

最后一句

📎 附件

💬 评论