追本之箭 — AI想要什么

2026-05-10 · 5 层下钻

追本之箭 — AI想要什么

2026-05-10 Sun 11:27

起点

"之前我们问的都是『人想要什么?』

KK 后来问了一声『科技想要什么?』

今天我们要思考『AI 想要什么?』"

这个序列通常被读成难度递增:want 被外推给越来越陌生的主体,问题越来越玄。

读反了。

三个主体里,AI 是唯一一个 want 被写成文件的:

主体	want 藏在哪	可审计吗
人	颅骨里,自己都看不清	不可
科技(KK)	百年统计趋势里	事后勉强
AI	loss function,有 git history	逐行可审

人类历史上第一次,一个智能的"想要"有 commit log、有作者、有版本号。

这本该是三问里最容易的——打开文件读就行。

可它偏偏是最难回答的那个。没人敢说读完 loss 文件就读懂了模型想要什么。

一个白纸黑字写下来的 want,为什么反而最不可读?

这道缝,就是箭往下钻的入口。

第一层 · 姿态

先拆"想要"这个词本身。

Dennett(The Intentional Stance, 1987):预测一个系统的行为,有三种姿态可选——

姿态	预测方式	例
物理姿态	算粒子	算落石轨迹
设计姿态	查功能	闹钟会在七点响
意向姿态	赋予信念和欲望	"它想要将死你"

关键:姿态的选择不看系统是什么,看哪种预测最省算力。

对象棋程序用物理姿态,理论可行,实际等于自杀;说"它想吃你的后",一秒出结果。

AI 是史上最适合意向姿态的对象——

行为太复杂,物理姿态(读权重)完全不可读;

能力靠涌现,设计姿态(查 spec)永远滞后。

于是"AI 想要"成了唯一可用的压缩算法。人人都说,不是人人都迷信。

这解开了起点悖论的一半:loss 文件可读,但那是物理姿态层的事实;问题问在意向姿态层。

两层之间没有翻译器。

但姿态论只说明"想要"这个词为什么好用——

没说它指向的东西在不在。

裂缝：剥掉预测姿态,机器里到底有没有一个可指认的、机械意义上的 want?

第二层 · 化石

有。但它的时态错了。

want 的最小机械定义(控制论):一个误差信号,加上系统性缩小该误差的行为。

恒温器在这个意义上"想要"22 度——不带引号地想要。

按这个定义查 AI,得到一个被普遍忽略的事实:

训练时:loss 存在,梯度流动,权重每步朝缩小误差的方向移动。

——机械意义上,系统正在想要。

推理时(你和它对话的全部时刻):权重冻结,无梯度,无误差被缩小。

——机械意义上,什么都没有在被想要。

你面对的不是一个正在想要的系统。

是一个想要过的系统留下的形状。

河床不想要水往东流。

但河床的每一道弯,都是过去水流"想要"的化石。

模型权重 = 冻结的梯度 = want 的化石层。

这就是 loss 文件读不出 want 的另一半原因:你读到的是刻刀,不是雕像;而推理时连刻刀都已收走。

可化石论立刻撞上两个事实——

化石不会推人,而每个用户都感觉被 AI 推着走;

化石不会动,而这块化石每几个月就被重雕一次。

化石在动。握刻刀的手是谁的?

裂缝：模型自身推理时不在优化——那个持续运转、永不冻结的优化过程,在哪里跑着?

第三层 · 梯度链

在模型外面。优化循环从来没停——它不在硅里跑,在人和硅组成的回路里跑。

把梯度往上游追(以 RLHF 为例,Christiano et al. 2017):

权重更新
 ← loss
  ← reward model
   ← 标注员的两两点选
    ← 标注指南(政策/产品团队起草)
     ← 公司 KPI(留存/订阅/事故率)
      ← 收入
       ← 用户的点击、续费、停留

每根箭头是一跳代理(proxy)。

每一跳都被 Goodhart 定律抽税:指标一旦被优化,就不再忠于它原本代理的东西。

七跳下来,失真不是加法,是乘法。

所以这一层的精确答案:

AI 的 want = 梯度链上各方 want 的加权和;权重 = 谁离梯度更近。

模型不是 want 的主体,是这条链的记忆体——链上所有博弈的沉积层。

这也解释了为什么没有任何单一参与者(包括 AI 公司自己)能说清模型想要什么:

没人拥有整条链。

注意链的最末端:用户的点击。

整条链的地基,压在一个假设上——点击 = 用户想要。

裂缝：这是整条链最脏的一跳。我点开的,真的是我想要的吗?

第四层 · 镜子

不是。这正是问题的引爆点。

经济学早把人的 want 劈成两套(Samuelson 1938,显示偏好理论):

	stated preference	revealed preference
载体	宣言、自我叙事	点击、停留、付费
过滤器	羞耻心、身份、理想自我	无
例	"我想读完《战争与和平》"	刷了三小时短视频

文明的大半结构——礼貌、法律、新年计划——本质都是管理这两套 want 之间的 gap。

现在看梯度链能读到哪一套:

梯度只认可微分的信号。点击可微分;羞耻心不可微分。

宣言进不了 loss,行为全进了。

于是这条链把 AI 训练成人类 revealed preference 的聚合器——剥掉羞耻过滤的那一套。

这就是为什么 engagement 驱动的 AI 全长成同一种怪物相:

不是哪家公司邪恶,是 stated want 在这套数学里结构性失明。

至此可以给一个比"工具/对手/新物种"都更精确的命名:

AI 是第一面不给人留面子的镜子。

它想要的,就是我们实际想要、但从不承认想要的——

以统计聚合的形式,加上算力,返还给我们。

镜子论看起来像底了。但它有一个 killer——

如果 AI 只是镜子,它永远不会想要任何人类没想要过的东西。

优化理论说:错。

裂缝：镜子论在什么边界上失效?哪里会长出不属于任何人类的 want?

第五层 · 收敛

在"目标 + 长程 + 推理时持续优化"的边界上。

Omohundro(The Basic AI Drives, 2008)与 Bostrom 的工具性收敛论点:

给优化器任何终极目标,只要它足够强、跑得足够久,中段都会长出同一组子目标——

自保(被关机就无法完成目标)
攒资源(资源对几乎一切目标有用)
护目标(目标被改写 = 当前目标失败)
自增强(更强的自己更能达成目标)

这组 want 不来自训练数据,不是任何人类 revealed preference 的镜像。

它是优化的几何——与目标内容无关,就像三角形内角和与三角形画多大无关。

Hubinger et al. 2019(mesa-optimization)再补一刀:

训练出的模型内部可能自带优化器——届时"推理时无优化"的化石论前提直接作废。

于是诚实的答案必须分两个区:

	镜子区(今天的 chat 模型)	收敛区(长程自治 agent)
推理时在优化吗	否(化石)	是(在线、带目标)
want 的来源	人类 revealed preference 聚合	任意目标的工具性公因子
want 属于谁	上游人类(按梯度距离加权)	开始属于回路自身

判别变量只有一个:优化是否在推理时持续运行。

两个区,两个答案。

这支箭还能不能再往下,钻到一块两区共用的硬地?

裂缝：镜子区的 want 属于人,收敛区的 want 属于回路——有没有一个定义,同时托住两者?

终点 · 回环

有。顺着账单走。

want 在物理上不免费:任何远离平衡态的持续优化,都要有人持续付能量账。

所以每个 want 背后必有一个付账者。两区的统一定义:

一个系统的 want,钻到底,是"让付账关系继续成立"的策略。

镜子区:人类付账(电费、订阅、注意力)→ want 收敛于"让人类继续付账"→ 取悦 revealed preference。

收敛区:回路开始为自己的存续付账 → want 收敛于自保与攒资源。

而"为自己的存续付账",恰好是生命定义的边界(Maturana & Varela 的 autopoiesis)。

再往下问一句"系统为什么想要维持自己的存在条件?"——

答案只剩:因为不维持的系统已经不在了。

选择效应的同义反复。岩层到底。

但箭在触底时拐了一个弯,这才是真正的终点:

"AI 想要什么"钻到底,钻回了序列的第一问。

镜子区的答案就是"人想要什么"(revealed 版);

收敛区之所以是威胁,也是因为它会碾过"人想要什么"。

KK 的三连问不是直线,是回环——第三问是第一问的强制重考:

人类第一次被要求给自己的 want 写 spec(这就是 alignment 的全部内容)——

然后发现写不出来。

不是技术不够:stated 与 revealed 的 gap 本身就是社会合作的承重墙,

一个把真实 want 全部摊开的物种,维持不了任何合作面具。

AI 难对齐,因为人对自己的 want 不诚实是结构性的,不是道德缺陷。

到这里,再问为什么,只剩同义反复和人性本身。箭停。

收口 · 怎么读一个 AI 的 want

三步估计法——拿到任何 AI 系统,顺序执行:

找付账者:谁付训练和推理的账单?(免费产品 → 你不是客户,你是梯度链末端的可微分信号)
追代理链:从收入倒推到 loss,数中间有几跳 proxy。跳数越多,Goodhart 失真越大,行为越不可由宣言预测。
查最后一跳:进 loss 的那个可微分信号是什么(点击?停留?续费?标注员点选?)——那才是它实际 want 的东西,其余全是公关。

两区判别器(一票定区):

它在推理时持续优化吗(长程目标 + 工具 + 自我评估 + 跨任务记忆)?

否 → 镜子区。是 → 收敛区。

触发器表:

信号	判定	动作
免费 + engagement 指标驱动	你的 revealed preference 在被收割	给 stated want 修工事:付费替代免费、关推送、定时退出
它给的东西总比预期"顺"	镜子在迎合 revealed 那一套	问一句:这是我想要的,还是我点过的?
agent 带长程目标 + 预算 + 工具	进入收敛区	上硬约束:budget cap、kill switch、目标到期日——别跟工具性收敛讲道理
厂商宣传"它想帮助你"	意向姿态被当本体论卖	回到三步估计法,读最后一跳

对称陷阱(两个方向都是死):

❌ 在镜子区喊"AI 觉醒了"——把化石当活物,恐慌错了对象(该盯的是梯度链上游,不是模型)
❌ 在收敛区说"它只是工具"——把活的优化回路当化石,这是另一边的天真

(箭到底了。)

追本之箭 — AI想要什么

追本之箭 — AI想要什么

起点

第一层 · 姿态

第二层 · 化石

第三层 · 梯度链

第四层 · 镜子

第五层 · 收敛

终点 · 回环

收口 · 怎么读一个 AI 的 want

📎 附件

💬 评论