追本之箭 — 自我是世界模型的一部分
追本之箭 — 自我是世界模型的一部分
2026-04-24 Fri 11:04
起点
"我们的自我,是我们自身世界模型的一部分。"
温和的读法,把它当一句认识论的谦辞:我也是被建构的,众生皆模型,放下执念。
错。这句话不是谦辞,是一张工程图纸。
商场地图上有一个红点:"您在此处"。
红点不是看地图的人。红点是地图的一个图例。
没有红点,地图再精确也没用——导航无从起步。
这句话说的是:你以为的"我"——那个在看、在想、在拍板的主角——就是世界模型里的那个红点。
不是地图的读者,是地图的一个组件。
而组件,服从组件的全部工程约束:
为某个功能而造。按某个预算压缩。向某个甲方汇报。
你一生最在意的那个东西,在图纸上是一个控制变量。
真正的问题不是"这太冷了"——是:这个变量按什么规格造出来?读懂规格,你才知道它哪里准、哪里永远不准。
第一层 · 红点
为什么世界模型里必须有一个"我"?
不是哲学奢侈,是控制刚需。
Conant & Ashby 1970 年的 good regulator theorem:任何把一个系统调节好的调节器,必须内含该系统的模型。
大脑要调节的环境里,有一个永远在场、永远挡在所有因果链中间的东西——这具身体。
手伸多远、血糖剩多少、这道沟跳不跳得过、刚才那句话得罪了谁——
要控制,就必须建模;要建模"本机",世界模型里就必须有一个本机条目。
这个条目的最小字段表:
- 位置:我在哪
- 状态:我饿不饿、伤没伤
- 能力包络:我跳得过去吗
- 社会坐标:我在这群灵长类里排第几
机器人学正在重演这条路:一台要规划动作的机器人,第一件事是给自己建 self-model——不建,连"手臂会不会撞到自己"都算不出。
红点不是地图的 bug。红点是地图的第一功能。
第二层 · 压缩
先别急着说"虚标"。第一个事实是:这块仪表根本不可能全息。
自我模型住在系统内部——模型是系统状态的一个真子集,部分装不下全体。
建模自己 = 必然有损压缩。这不是缺陷,是几何。
有损压缩立刻引出一个绕不开的工程问题:丢什么,留什么?
信息论给它名字:rate-distortion——给定预算(脑组织、能量、毫秒),最小化"失真"。
而"失真"怎么定义,由目标函数说了算。
进化给的目标函数不是"真",是"有用":
- 油表不显示每个油分子,显示"还能跑多远"。
- 痛觉不报告组织损伤的生化细节,报告"立刻停止当前动作"的优先级。
- "我想要 X",不是欲望系统的源代码,是几十个子系统竞价之后的获胜公告。
所以内省读到的从来不是底层状态,是仪表读数。
"我感到我想要"和"我想要"之间,隔着一整层有损编码。
这解释了一半的虚标:仪表没坏——它本来就不是为"如实"造的,是为"可用"造的。
第三层 · 公关
掰针的不是 bug,是第二个甲方。
自我模型有两个用户:
- 对内:控制这具身体——这个用户要准。
- 对外:向其他大脑播报"我是谁"——这个用户要好看。
人是深度社会化物种,生存资源的一半,存在别的大脑里那个"你"的模型上。
而对外播报有个博弈论死结:谎言有 tell——微表情、迟疑、记账负担,全会泄露。
Trivers 的进化解:最高效的欺骗,是先把自己骗过。
真心相信自己的公关稿,播报时就没有 tell。自欺不是软弱,是经过带宽优化的说服装置。
Kurzban 把架构说得更直白:意识里的"我",更像白宫新闻发言人——
不在决策室,拿到的是删减版简报,职责是把已经做出的决定包装成体面叙事。
实验底座:Gazzaniga 的裂脑人。指令"走"只闪给右脑,患者起身走;问他为什么(语言在左脑,不知情),他零迟疑地答"我去拿罐可乐"——且真诚相信。左脑里那个模块,Gazzaniga 命名为 interpreter:不管真实原因在不在场,它都即时生成一份"我之所以"。
所以这块仪表是双重规格:既是给驾驶员的油表,也是给路人看的广告牌。
你的作者感——"是我选的"——常常是新闻稿,在决定做出之后发布。
第四层 · 对角线
收敛不了。这是逻辑禁区,不是修养不足。
把问题摆干净:
自我模型 M 是系统 S 状态的一部分。
M 要完整刻画 S,就必须刻画"S 里有一个正在刻画 S 的 M"——
每写一笔,被写的东西就多了一笔。 追自己的尾巴。
形式版,是 Turing 1936 那把对角线刀的近亲:
假设系统内部存在一个完整自我预测器,能算出"我接下来会做什么"。
那就能构造一个程序:读出预测,然后专门反着做。
预测器要么错,要么停不了机。能依据预测行动的系统,不存在完美的自我预测。
所以内省有一条硬上限,与望远镜口径无关:
- 每次内省都是模型在读模型——读的动作本身改写了被读的东西。
- "彻底认识自己" ≈ "集合包含一个比自身更大的成员"。
到这里,再问"为什么我不能完整认识我",答案只剩同义反复:
因为认识者在被认识的里面。因为部分小于全体。因为对角线。
箭尖碰到的不是心理学。是逻辑本身的地板。
终点:别校仪表的针,换外部仪表
钻穿四层,底部只剩三句:
- "我"是世界模型的本机条目,为控制而造(第一层)。
- 它必然有损,且失真稳定偏向好看(第二、三层)。
- 用它修正它自己,有逻辑上限(第四层)。
推论一条:内省是单一仪表,且已知虚标。飞行员守则——不信体感,交叉仪表。
读数对账表
| 仪表读数 | 你以为是 | 工程真相 | 交叉校验 |
|---|---|---|---|
| "我想要 X" | 欲望的源头 | 子系统竞价的获胜公告 | 看行为:过去 30 天为 X 实际投入几小时 |
| "我是因为 Y 才做的" | 因果报告 | interpreter 的事后新闻稿 | 决策前写下理由,事后对照 |
| "我这人比较 Z" | 自我认知 | 公关稿里的人设条目 | 问三个无利益相关者,取交集 |
| "我状态没问题" | 系统自检 | 油表被广告牌化 | 外部数据:睡眠、出错率、别人皱眉次数 |
三个触发器(读数最不可信的时刻)
- 事后解释异常流畅、零迟疑 → interpreter 在岗;先存疑,再采信
- 结论恰好让自己最体面 → 公关部加班;找到一条让自己难看的反例再定
- 道德愤怒指向他人 → 自利失真峰值时段;延迟 24h 再行动
两个对称陷阱(killer)
- 陷阱 A · 推责:"不是我,是我的模型。"——错。模型在系统内,改模型就是改系统;新闻稿是你的部门发的,公司照样负全责。
- 陷阱 B · 全盘外包:内省不可信,就全听别人的。——错。外部评价同样是别人模型里的有损条目;交叉的价值在失真方向与你不相关,不在"更真"。
证伪条件(bear case)
- 若长期内省训练(资深禅修者、多年精神分析来访者)能在外部可验证的自我预测任务上稳定跑赢行为数据基线 → "内省上限在实践中不可逾越"被削弱。对角线仍立,但工程余量比本文估的大。
- 若机器人/agent 的 self-model 可被系统外完整读出且不扰动运行 → 第四层的限定词要加粗:上限只对"从里面看"成立,外视角不受限。
操作三步(今天可用)
- 选一个你最确信的自我判断("我是个 X 的人"),写下三条可观察预测。
- 30 天后用行为数据对账——错得最离谱的那条,就是公关稿浓度最高的部位。
- 重要决策里给"我感到"降权:体感作输入之一,不作裁决——裁决交给写在决策之前的规则。
最后一格白板:
你不是地图的读者。你是地图上的红点。
红点画不准自己——
但红点可以多看几张别人的地图,可以留下足迹再回头量。
认识自己,从内省的独白,改成测量的对账。
(箭到底了。)
