追本之箭 — 动作与行动
追本之箭 — 动作与行动
2026-06-07 Sat 15:54
起点
"永远不要将动作(motion)和行动(action)混为一谈。"
——常被归于海明威 [出处存疑·LOW:广为流传,无确证文献;不影响这句的锋利]
朴素的读法把它当效率训诫:动作是差的行动,行动是好的动作,差别在准头。
这读法藏着一个没人检查的假设——两者在同一条轴上,动作攒多了、磨细了,自然会变成行动。
刀刃在于:这个假设是假的。
动作和行动不在一条轴上,在两个拓扑里:
一个的回路闭在你体内,一个的回路穿过世界。
自环转一万圈,不会变成外环——圈数换不来半径。
所以一个人可以勤奋十年,而没有行动过一次。
更冷的是:他每多转一圈,都更确信自己"快了"。
那这条把两个世界分开的线,到底画在哪?
第一层 · 回路
控制论看行为,只问一件事:误差信号从哪来。(Wiener,《Cybernetics》,1948)
- 外环:输出 → 世界 → 回写 → 修正。打分的东西,不归你管。
- 自环:输出 → 自己 → 满意 → 继续。打分的和被打分的,是同一个人。
| 自环 | 外环 |
|---|---|
| 改第七版方案(评分:自己的完美感) | 发出去(评分:用户的沉默) |
| 把健身计划做成 Excel(评分:表格的整齐) | 今晚去举铁(评分:杠铃,它说了算) |
| 复盘自己的笔记(评分:秩序感) | 把判断押上仓位(评分:价格) |
先钉死一个误读:"世界"不等于市场或他人。
世界 = 一切你说了不算的东西:逻辑(证明会卡死)、事实(实验会失败)、引力(杠铃不奉承)。
所以草稿纸上的数学家在外环——他的评分者(推理是否成立)不归他管;
而满场飞的会议常在自环——在场每一个评分者,都可以被说服。
判据压成一句:给这件事打分的东西,能不能被你说服?能,就是自环。
第二层 · 一比特
信息论给回写标了价。(Shannon,1948)
一个结果携带的信息量 = -log p。
越意外,信息越大;事前确定(p = 1),信息恰好为零。
把这把尺子放到回路上,结构立刻露出来:
外环的回写之所以值钱,恰恰因为它可能写着"你错了"。
回写携带的比特数,严格等于它否定你的可能性。
想要信息、又不想可能被否定——等于想要一枚只有正面的硬币。
信息和痛,不是两件事,是同一个量的两个读数。
再看动作:整理笔记一定整理得完,第 20 本书一定读得完,第五版 PPT 一定比第四版顺——
结果分布坍缩成一个点,p = 1,-log 1 = 0。
动作是零比特行为:做之前你就知道结局,所以它什么也没告诉你。
于是那条线可以重画一遍:
行动 = 付费查询世界,货币是"可能错"。
动作 = 免费,所以查不到任何东西。
第三层 · 预测机
因为大脑优化的目标函数,不是"与世界契合",是预测误差最小。
(预测加工;Friston 的自由能原理是其最强表述)
大脑是预测机:持续生成对输入的预测,只处理误差。压低误差有两条路——
- 路①:更新模型。 贵。尤其当要改的那份模型叫"我是谁"。
- 路②:挑选输入。 只采样自己能完全预测的环境——误差照样归零,模型毫发无伤。
动作就是路②的完美执行。
笔记、计划、第 N 轮准备,全是你能 100% 预测的输入源。
每滑回自环一次,预测误差应声而落——这是真实的神经奖励,不是幻觉。
甜,由此而来:自环不是堕落,是大脑目标函数的局部最优。
只是在自环里,"误差最小"和"模型为真"脱钩了:
误差是零,因为你只考自己出的卷子。
被保护得最严的那份模型,叫自我——第 20 本书碰不到它,一次发布可能碰碎它。
第四层 · 热与功
因为搬进去的,都死了。
Schrödinger 在《What is Life?》(1944)给生命下的定义,正好反着自环来:
有机体靠"负熵"为生——活着 = 持续与环境交换,把外界的秩序吃进来,抵消体内不可逆的熵增。
与世界断开交换的系统(孤立系),熵单调增,直到死。这不是比喻,是热力学第二定律。
自环正是一个断开交换的系统:
笔记越来越整齐、计划越来越完美——那是局部秩序,总账照样在烂。
热力学还顺手给了动作/行动最硬的一对名字。同样一份能量:
- 功:改变系统的宏观状态——活塞推过去了,东西不一样了,回不去了。
- 热:只增加内部搅动——分子更热闹,宏观纹丝不动。
动作是热:日程满的、人是累的、系统内部剧烈搅动——你在世界里的位置,没动。
行动是功:可能很小,但状态变了,且不可逆。
"瞎忙为什么也这么累"由此有了物理答案:热也烧真卡路里。换来的是温度,不是位移。
第五层 · 不等式
不存在。这不是勇气问题,是一条定理。
Data processing inequality(信息论基本定理):对已有数据做任何加工,关于世界 W 的信息只减不增——
I(W; g(X)) ≤ I(W; X)
整理、重写、复盘、再推演……g 套一万层,不等式右边一个比特也多不出来。
加工只能丢信息,不能造信息。
而自环里那些反馈——对计划的满意、对笔记的赞赏——是你已有模型 M 的确定函数:
Y = f(M) ⟹ I(W; Y | M) = 0
自产的回写,关于世界的新信息,严格为零。不是少,是零。
所以"不暴露也能更新"在数学上不存在:
你关于世界的知识,上限是你和世界实际交换过的比特数。
闭门的勤奋,在不等式右边空转——圈数换不来半径,这次是定理,不是劝勉。
到这里,再问"为什么不接触就学不到"——只剩同义反复:
学习的定义,就是把世界的结构搬进来;搬,必须碰。
箭碰到的是定义本身。底。
终点:数比特,别数圈
两口反咬(先吞下,再用刀)
① 噪音陷阱:有暴露 ≠ 有信息。
日内盯盘、刷每条评论——回路确实穿过世界,但回写的信噪比趋零,你在用随机数更新模型。
钥匙:暴露之前,写下预测。 回写只许用来校验那条预测;校验不了的回写,当它不存在。
② 评分者伪装:自环穿上外环的皮。
付费的教练、点赞的朋友、夸你的 AI——看着是世界,其实是镜子。
钥匙一问:这个评分者,会因为夸我而得利吗?能被我说服吗? 任一为是 → 仍是自环。
评分者审计(对每件进行中的事)
| 问 | 答得出 | 答不出 |
|---|---|---|
| 谁给这件事打分? | 一个我说了不算的东西 → 外环 | 自己 / 可被说服的人 → 自环 |
| 上次被世界改写,是哪天? | 有具体日期 → 回路活着 | 想不起 → 只剩广播 |
| 做完它,我会知道哪件现在不知道的事? | 列得出 → 有比特 | 列不出 → p = 1,零比特 |
周频触发器
每周五,数一个数:本周,世界否定了我几次?
- 0 次 → 本周没有行动。不是你全对,是你没出环。
- ≥1 次 → 每次否定写一行:模型哪里改了。写不出 → 那次暴露白付了(挨了打,没收货)。
换算(把"忙"换算成比特)
做之前问一句:这件事的结局,事前确定吗?
- 确定(一定能做完、一定不难看) → 0 比特 → 它是热。
- 不确定(可能被打回、可能卡死、可能没人理) → >0 比特 → 它是功。
一周有 3 比特的功,就是好的一周;一年的热加起来,是零。
最后一句
动作的舒服和行动的可怕,不是两种命运,是同一个量的两个读数:
那一比特,既是你怕的,也是你唯一能拿到的。
世界不收门票。
世界只收"可能错"。
所以别问今天转了多少圈——
问:今天,有没有一个我说了不算的东西,碰过我?
(箭到底了。)
