追本之箭 — 为学日益为道日损
追本之箭 — 为学日益为道日损
2026-04-16 Thu 11:01
起点
《道德经》第四十八章:"为学日益,为道日损。损之又损,以至于无为。无为而无不为。"
最常见的读法把它供成生活美学:断舍离、少即是多、放下执念。
这样读,八个字就死了——又一句劝你"别太卷"的安慰。
掀翻它:这不是心态建议,是一条工程规格。
在所有已知的学习系统里——大脑、统计模型、科学共同体——
从"记住"到"会用",只有一条已知通路:压缩。
"损"不是"学"的反方向,是"学"的第二道工序,
而且是唯一能产出泛化的那道:让你在没见过的局面里依然正确。
隐藏杠杆在这里:定义你的,不是你装进了什么,而是删完之后还剩什么。
命门也在这里:删错了怎么办?你怎么知道删掉的是冗余,还是命根?
第一层 · 可见性
为什么整个文明默认"益"?
因为知识的市场只能给加法定价。
学历、证书、读书量、收藏夹、信息流——全部可计量、可展示、可出售。
损发生在脑内:不可见、不可考核、写不进简历。
一个人删掉了三个错误模型,世界看不见;
一个人多考了一张证书,世界立刻看见。
于是激励结构系统性地补贴采集、漏记压缩。
"学习"被悄悄重定义成了"摄入"。
庄子早把账算过:"吾生也有涯,而知也无涯。以有涯随无涯,殆已。"(《庄子·养生主》)
有限带宽追逐无限信息,不是勤奋,是结构性必败。
但激励只解释了偏好,没碰到要害——
第二层 · 过拟合
统计学给这个翻转起了名字:overfitting(过拟合)。
一个模型参数足够多,可以记住训练集的每一个细节——
样本内完美,样本外崩溃。
它没有学到规律,它把噪声背了下来。
硬机制一条:
泛化误差 = bias² + variance + 不可约噪声
一味加参数(为学日益):bias 降,variance 升——
你在见过的局面里越来越准,在没见过的局面里越来越脆。
知识也是参数。
读过一万个案例仍不会决策的人,就是一台过拟合的人肉模型:
每个案例都记得,每个新局面都瘫痪。
博尔赫斯写过极限版本:《博闻强记的富内斯》里那个忘不掉任何细节的人,恰恰因此无法思考——"思考是忘记差异,是概括,是抽象。"
完美的记忆 = 零抽象 = 零智能。
统计学的解法叫正则化(regularization):在损失函数里给参数加惩罚项,强行做减法。
模型的"损"不是态度,是写进目标函数里的一项。
对称陷阱在此埋下:损也有失败模式——欠拟合。
减过头,bias 飙升,你把世界硬塞进三句口号。
教条,就是压缩过度之后拒绝解压的人。
第三层 · 压缩
信息论给出精确答案。
MDL 原则(Minimum Description Length,Rissanen 1978):
最优模型 = 让「模型自身编码长度 + 数据在该模型下的残差编码长度」最短的那个。
min L(M) + L(D|M)
翻译:"损"损的从来不是数据,是冗余。
你不是删经验,是找到一个能把全部经验重新生成出来的更短程序。
删掉一千个例子,留下那个能生出一千个例子的生成器。
这就是失忆与抽象的分界线:
失忆 = 删了数据,程序没变短;
抽象 = 数据可丢,因为程序能把它们生回来。
更深一步:压缩 = 预测。
Shannon 编码定理的直接推论——预测得越准,编码越短,两者在数学上是同一件事。
(Hutter Prize 拿这个等式直接悬赏:压得动 enwik 语料,就是在逼近通用智能。)
于是"道"第一次有了可操作的定义:
道 = 能重新生成你全部经验的最短程序。
为道日损 = 逼近这个程序的过程(逼近 Kolmogorov 复杂度)。
而"为学日益"由此获得验收标准:
一个知识如果没让你的世界模型变短,它就还没被学完——只是被搬运了。
bear case 也在这层现形,两种假货:
假益:把知识外包给搜索和 AI——缓存外置,程序没短,只是看起来轻;
假损:跳过"益"直接"损"——没有数据就做压缩,压出来的不是道,是口号(民科都极简)。
老子把顺序写死了:先"为学日益",后"为道日损"。没有原料的压缩机,空转。
第四层 · 瓦特
物理规定的。
你的大脑功率约 20 瓦——一颗昏暗的灯泡,跑着对整个世界的实时预测。
Landauer 原理(1961):擦除一比特信息,至少耗散 kT·ln2 的能量。
信息是物理的。记忆、计算、维护每一条突触,都在付能量账。
在 20 瓦的预算内运行无限复杂的世界模型?物理不批。
所以压缩不是大脑的美德,是大脑的生存条件。
Friston 的自由能原理(free energy principle)把这件事推到底:
大脑全部工作可概括为一件事——最小化预测误差(surprise);
而长期最小化的唯一手段,就是改进生成模型——也就是压缩。
"无为"在这一层显出物理学的脸:
当你的模型与环境的生成结构同构,预测误差趋近于零——
行动不再需要在线推理,输入直接落成输出。
无为,不是不动;是零摩擦。
无为而无不为:推理成本最低的模型,恰好是泛化最广的模型——
它在任何新局面里都直接给出动作。不是玄学,是同一条数学的两面。
但要按住一个对称陷阱(Ashby 的钉子):
必需多样性定律(Law of Requisite Variety,Ashby 1956)——调节器的复杂度不能低于被调节环境的复杂度。
损有下界。 压到比世界还简单,模型不是清晰,是瞎。
损的目标是"最短的够用程序",不是"最短的程序"。
第五层 · 可压性
这一问,箭碰到了底。
世界确实可压——这是物理学最惊人的实证事实:
几页纸的方程,生成全部已观测现象。
Wigner(1960)称之为"数学在自然科学中不合理的有效性"。
道之所以可逼近,是因为宇宙先把自己写短了。
但再往下问"为什么世界可压缩"——
注意每一个候选答案的形状:上帝、人择原理、数学宇宙……
每一个答案,本身又是一次压缩:用更短的描述去覆盖"世界是短的"这个事实。
解释可压缩性的行为,预设了可压缩性。
问题开始吞自己的尾巴——同义反复出现,这是箭能到的最深处。
逻辑还补了最后一刀。
Chaitin 不完备定理(Gödel 的算法信息论版本):一个复杂度为 N 的形式系统,无法证明任何具体对象的 Kolmogorov 复杂度远超 N——
系统在自身内部,说不出"最短程序"是什么,甚至说不出自己是否已经找到它。
终极压缩,不可被自我陈述。
《道德经》第一章在两千多年前写下同一条定理:道可道,非常道。
能被你说出来的那个最短程序,必定还不是最短的。
所以"损之又损"没有终点站,只有渐近线。
无为不是一个可以抵达然后退休的状态,是一个方向。
终点:压缩比,不是阅读量
到底之后,能带回地面的是一把尺:别再量你摄入了多少,量你的压缩比。
验收一问(每次学完任何东西)
我的世界模型,变短了还是变长了?
变短(几个旧模型合并成一个更深的)→ 这次"学"完成了。
变长(又多一条平行的、互不打通的知识)→ 只完成了搬运,损的工序还欠着。
诊断表:四种假象
| 你以为你在 | 检验 | 它其实是 |
|---|---|---|
| 学习(疯狂摄入) | 模型变短了吗?没有 | 采集,过拟合在路上 |
| 极简 / 抓大放小 | 删掉的例子能被剩下的原则生回来吗?不能 | 失忆,不是抽象 |
| 直击本质 / 一句话讲透 | 经过足量"益"吗?没有 | 口号(无原料的压缩机) |
| 知识渊博(外挂 AI / 搜索) | 断网还在吗?不在 | 缓存外置,程序没短 |
压缩工序(可执行循环)
- 采集到冗余浮现为止——同一个结构第三次在不同领域出现,就是压缩信号。
- 命名那个结构。给不出名字 = 还没看见生成器。
- 删例子,留生成器。检验:用生成器把删掉的例子重新推一遍;推不出 → 删早了,解压重学。
- 拿一个完全没见过的案例测泛化。失败 → 回到 1。这是防教条的唯一闸门(Ashby 下界:别压到比世界还简单)。
两个触发器
- 听到自己说"这个我知道"超过三次而行为没变 → 知识在缓存里,不在程序里,启动压缩工序。
- 发现自己用同一句口号解释一切 → 欠拟合警报,解压:回去补"益",找反例。
最后一句
为学日益,是把世界装进来。
为道日损,是把装进来的世界写短。
装而不写,是仓库;
写而不装,是口号。
道,是那个能把你全部经验重新生成出来的最短程序——
你说不出它(道可道,非常道),
但每删对一行,你就轻一点,快一点,准一点。
(箭到底了。)
