追本之箭 — 动作与行动

2026-06-07 · 5 层下钻

追本之箭 — 动作与行动

2026-06-07 Sat 15:54

起点

"永远不要将动作(motion)和行动(action)混为一谈。"

——常被归于海明威 [出处存疑·LOW:广为流传,无确证文献;不影响这句的锋利]

朴素的读法把它当效率训诫:动作是差的行动,行动是好的动作,差别在准头。

这读法藏着一个没人检查的假设——两者在同一条轴上,动作攒多了、磨细了,自然会变成行动。

刀刃在于:这个假设是假的。

动作和行动不在一条轴上,在两个拓扑里:

一个的回路闭在你体内,一个的回路穿过世界。

自环转一万圈,不会变成外环——圈数换不来半径。

所以一个人可以勤奋十年,而没有行动过一次。

更冷的是:他每多转一圈,都更确信自己"快了"。

那这条把两个世界分开的线,到底画在哪?

第一层 · 回路

控制论看行为,只问一件事:误差信号从哪来。(Wiener,《Cybernetics》,1948)

外环:输出 → 世界 → 回写 → 修正。打分的东西,不归你管。
自环:输出 → 自己 → 满意 → 继续。打分的和被打分的,是同一个人。

自环	外环
改第七版方案(评分:自己的完美感)	发出去(评分:用户的沉默)
把健身计划做成 Excel(评分:表格的整齐)	今晚去举铁(评分:杠铃,它说了算)
复盘自己的笔记(评分:秩序感)	把判断押上仓位(评分:价格)

先钉死一个误读:"世界"不等于市场或他人。

世界 = 一切你说了不算的东西:逻辑(证明会卡死)、事实(实验会失败)、引力(杠铃不奉承)。

所以草稿纸上的数学家在外环——他的评分者(推理是否成立)不归他管;

而满场飞的会议常在自环——在场每一个评分者,都可以被说服。

判据压成一句:给这件事打分的东西,能不能被你说服?能,就是自环。

裂缝：外环才有真东西,自环什么也换不来——可我们的手,一次次自己滑回自环。这不像失误,像设计。是什么在付我们工资?

第二层 · 一比特

信息论给回写标了价。(Shannon,1948)

一个结果携带的信息量 = -log p。

越意外,信息越大;事前确定(p = 1),信息恰好为零。

把这把尺子放到回路上,结构立刻露出来:

外环的回写之所以值钱,恰恰因为它可能写着"你错了"。

回写携带的比特数,严格等于它否定你的可能性。

想要信息、又不想可能被否定——等于想要一枚只有正面的硬币。

信息和痛,不是两件事,是同一个量的两个读数。

再看动作:整理笔记一定整理得完,第 20 本书一定读得完,第五版 PPT 一定比第四版顺——

结果分布坍缩成一个点,p = 1,-log 1 = 0。

动作是零比特行为:做之前你就知道结局,所以它什么也没告诉你。

于是那条线可以重画一遍:

行动 = 付费查询世界,货币是"可能错"。

动作 = 免费,所以查不到任何东西。

裂缝：痛解释了躲,解释不了甜——自环不只是不痛,它格外舒服、明显上瘾。一个为学习而生的器官,为什么会奖励拒绝信息?

第三层 · 预测机

因为大脑优化的目标函数,不是"与世界契合",是预测误差最小。

(预测加工;Friston 的自由能原理是其最强表述)

大脑是预测机:持续生成对输入的预测,只处理误差。压低误差有两条路——

路①:更新模型。 贵。尤其当要改的那份模型叫"我是谁"。
路②:挑选输入。 只采样自己能完全预测的环境——误差照样归零,模型毫发无伤。

动作就是路②的完美执行。

笔记、计划、第 N 轮准备,全是你能 100% 预测的输入源。

每滑回自环一次,预测误差应声而落——这是真实的神经奖励,不是幻觉。

甜,由此而来:自环不是堕落,是大脑目标函数的局部最优。

只是在自环里,"误差最小"和"模型为真"脱钩了:

误差是零,因为你只考自己出的卷子。

被保护得最严的那份模型,叫自我——第 20 本书碰不到它,一次发布可能碰碎它。

裂缝：省电的脑、无损的自我、归零的误差——既然自环是局部最优,生命为什么不全体搬进去,把误差永远关在零上?

第四层 · 热与功

因为搬进去的,都死了。

Schrödinger 在《What is Life?》(1944)给生命下的定义,正好反着自环来:

有机体靠"负熵"为生——活着 = 持续与环境交换,把外界的秩序吃进来,抵消体内不可逆的熵增。

与世界断开交换的系统(孤立系),熵单调增,直到死。这不是比喻,是热力学第二定律。

自环正是一个断开交换的系统:

笔记越来越整齐、计划越来越完美——那是局部秩序,总账照样在烂。

热力学还顺手给了动作/行动最硬的一对名字。同样一份能量:

功:改变系统的宏观状态——活塞推过去了,东西不一样了,回不去了。
热:只增加内部搅动——分子更热闹,宏观纹丝不动。

动作是热:日程满的、人是累的、系统内部剧烈搅动——你在世界里的位置,没动。

行动是功:可能很小,但状态变了,且不可逆。

"瞎忙为什么也这么累"由此有了物理答案:热也烧真卡路里。换来的是温度,不是位移。

裂缝：封闭即死,必须开放——成立。但这只证明必须交换,没证明交换必须挨打。最后一问:存不存在一种足够聪明的设计,不暴露,也能更新?

第五层 · 不等式

不存在。这不是勇气问题,是一条定理。

Data processing inequality(信息论基本定理):对已有数据做任何加工,关于世界 W 的信息只减不增——

I(W; g(X)) ≤ I(W; X)

整理、重写、复盘、再推演……g 套一万层,不等式右边一个比特也多不出来。

加工只能丢信息,不能造信息。

而自环里那些反馈——对计划的满意、对笔记的赞赏——是你已有模型 M 的确定函数:

Y = f(M) ⟹ I(W; Y | M) = 0

自产的回写,关于世界的新信息,严格为零。不是少,是零。

所以"不暴露也能更新"在数学上不存在:

你关于世界的知识,上限是你和世界实际交换过的比特数。

闭门的勤奋,在不等式右边空转——圈数换不来半径,这次是定理,不是劝勉。

到这里,再问"为什么不接触就学不到"——只剩同义反复:

学习的定义,就是把世界的结构搬进来;搬,必须碰。

箭碰到的是定义本身。底。

终点:数比特,别数圈

两口反咬(先吞下,再用刀)

① 噪音陷阱:有暴露 ≠ 有信息。

日内盯盘、刷每条评论——回路确实穿过世界,但回写的信噪比趋零,你在用随机数更新模型。

钥匙:暴露之前,写下预测。 回写只许用来校验那条预测;校验不了的回写,当它不存在。

② 评分者伪装:自环穿上外环的皮。

付费的教练、点赞的朋友、夸你的 AI——看着是世界,其实是镜子。

钥匙一问:这个评分者,会因为夸我而得利吗?能被我说服吗? 任一为是 → 仍是自环。

评分者审计(对每件进行中的事)

问	答得出	答不出
谁给这件事打分?	一个我说了不算的东西 → 外环	自己 / 可被说服的人 → 自环
上次被世界改写,是哪天?	有具体日期 → 回路活着	想不起 → 只剩广播
做完它,我会知道哪件现在不知道的事?	列得出 → 有比特	列不出 → p = 1,零比特

周频触发器

每周五,数一个数:本周,世界否定了我几次?

0 次 → 本周没有行动。不是你全对,是你没出环。
≥1 次 → 每次否定写一行:模型哪里改了。写不出 → 那次暴露白付了(挨了打,没收货)。

换算(把"忙"换算成比特)

做之前问一句:这件事的结局,事前确定吗?

确定(一定能做完、一定不难看) → 0 比特 → 它是热。
不确定(可能被打回、可能卡死、可能没人理) → >0 比特 → 它是功。

一周有 3 比特的功,就是好的一周;一年的热加起来,是零。

最后一句

动作的舒服和行动的可怕,不是两种命运,是同一个量的两个读数:

那一比特,既是你怕的,也是你唯一能拿到的。

世界不收门票。

世界只收"可能错"。

所以别问今天转了多少圈——

问:今天,有没有一个我说了不算的东西,碰过我?

(箭到底了。)

追本之箭 — 动作与行动

追本之箭 — 动作与行动

起点

第一层 · 回路

第二层 · 一比特

第三层 · 预测机

第四层 · 热与功

第五层 · 不等式

终点:数比特,别数圈

两口反咬(先吞下,再用刀)

评分者审计(对每件进行中的事)

周频触发器

换算(把"忙"换算成比特)

最后一句

📎 附件

💬 评论