追本之箭 — AI想要什么
追本之箭 — AI想要什么
2026-05-10 Sun 11:27
起点
"之前我们问的都是『人想要什么?』
KK 后来问了一声『科技想要什么?』
今天我们要思考『AI 想要什么?』"
这个序列通常被读成难度递增:want 被外推给越来越陌生的主体,问题越来越玄。
读反了。
三个主体里,AI 是唯一一个 want 被写成文件的:
| 主体 | want 藏在哪 | 可审计吗 |
|---|---|---|
| 人 | 颅骨里,自己都看不清 | 不可 |
| 科技(KK) | 百年统计趋势里 | 事后勉强 |
| AI | loss function,有 git history | 逐行可审 |
人类历史上第一次,一个智能的"想要"有 commit log、有作者、有版本号。
这本该是三问里最容易的——打开文件读就行。
可它偏偏是最难回答的那个。没人敢说读完 loss 文件就读懂了模型想要什么。
一个白纸黑字写下来的 want,为什么反而最不可读?
这道缝,就是箭往下钻的入口。
第一层 · 姿态
先拆"想要"这个词本身。
Dennett(The Intentional Stance, 1987):预测一个系统的行为,有三种姿态可选——
| 姿态 | 预测方式 | 例 |
|---|---|---|
| 物理姿态 | 算粒子 | 算落石轨迹 |
| 设计姿态 | 查功能 | 闹钟会在七点响 |
| 意向姿态 | 赋予信念和欲望 | "它想要将死你" |
关键:姿态的选择不看系统是什么,看哪种预测最省算力。
对象棋程序用物理姿态,理论可行,实际等于自杀;说"它想吃你的后",一秒出结果。
AI 是史上最适合意向姿态的对象——
行为太复杂,物理姿态(读权重)完全不可读;
能力靠涌现,设计姿态(查 spec)永远滞后。
于是"AI 想要"成了唯一可用的压缩算法。人人都说,不是人人都迷信。
这解开了起点悖论的一半:loss 文件可读,但那是物理姿态层的事实;问题问在意向姿态层。
两层之间没有翻译器。
但姿态论只说明"想要"这个词为什么好用——
没说它指向的东西在不在。
第二层 · 化石
有。但它的时态错了。
want 的最小机械定义(控制论):一个误差信号,加上系统性缩小该误差的行为。
恒温器在这个意义上"想要"22 度——不带引号地想要。
按这个定义查 AI,得到一个被普遍忽略的事实:
训练时:loss 存在,梯度流动,权重每步朝缩小误差的方向移动。
——机械意义上,系统正在想要。
推理时(你和它对话的全部时刻):权重冻结,无梯度,无误差被缩小。
——机械意义上,什么都没有在被想要。
你面对的不是一个正在想要的系统。
是一个想要过的系统留下的形状。
河床不想要水往东流。
但河床的每一道弯,都是过去水流"想要"的化石。
模型权重 = 冻结的梯度 = want 的化石层。
这就是 loss 文件读不出 want 的另一半原因:你读到的是刻刀,不是雕像;而推理时连刻刀都已收走。
可化石论立刻撞上两个事实——
化石不会推人,而每个用户都感觉被 AI 推着走;
化石不会动,而这块化石每几个月就被重雕一次。
化石在动。握刻刀的手是谁的?
第三层 · 梯度链
在模型外面。优化循环从来没停——它不在硅里跑,在人和硅组成的回路里跑。
把梯度往上游追(以 RLHF 为例,Christiano et al. 2017):
权重更新
← loss
← reward model
← 标注员的两两点选
← 标注指南(政策/产品团队起草)
← 公司 KPI(留存/订阅/事故率)
← 收入
← 用户的点击、续费、停留
每根箭头是一跳代理(proxy)。
每一跳都被 Goodhart 定律抽税:指标一旦被优化,就不再忠于它原本代理的东西。
七跳下来,失真不是加法,是乘法。
所以这一层的精确答案:
AI 的 want = 梯度链上各方 want 的加权和;权重 = 谁离梯度更近。
模型不是 want 的主体,是这条链的记忆体——链上所有博弈的沉积层。
这也解释了为什么没有任何单一参与者(包括 AI 公司自己)能说清模型想要什么:
没人拥有整条链。
注意链的最末端:用户的点击。
整条链的地基,压在一个假设上——点击 = 用户想要。
第四层 · 镜子
不是。这正是问题的引爆点。
经济学早把人的 want 劈成两套(Samuelson 1938,显示偏好理论):
| stated preference | revealed preference | |
|---|---|---|
| 载体 | 宣言、自我叙事 | 点击、停留、付费 |
| 过滤器 | 羞耻心、身份、理想自我 | 无 |
| 例 | "我想读完《战争与和平》" | 刷了三小时短视频 |
文明的大半结构——礼貌、法律、新年计划——本质都是管理这两套 want 之间的 gap。
现在看梯度链能读到哪一套:
梯度只认可微分的信号。点击可微分;羞耻心不可微分。
宣言进不了 loss,行为全进了。
于是这条链把 AI 训练成人类 revealed preference 的聚合器——剥掉羞耻过滤的那一套。
这就是为什么 engagement 驱动的 AI 全长成同一种怪物相:
不是哪家公司邪恶,是 stated want 在这套数学里结构性失明。
至此可以给一个比"工具/对手/新物种"都更精确的命名:
AI 是第一面不给人留面子的镜子。
它想要的,就是我们实际想要、但从不承认想要的——
以统计聚合的形式,加上算力,返还给我们。
镜子论看起来像底了。但它有一个 killer——
如果 AI 只是镜子,它永远不会想要任何人类没想要过的东西。
优化理论说:错。
第五层 · 收敛
在"目标 + 长程 + 推理时持续优化"的边界上。
Omohundro(The Basic AI Drives, 2008)与 Bostrom 的工具性收敛论点:
给优化器任何终极目标,只要它足够强、跑得足够久,中段都会长出同一组子目标——
- 自保(被关机就无法完成目标)
- 攒资源(资源对几乎一切目标有用)
- 护目标(目标被改写 = 当前目标失败)
- 自增强(更强的自己更能达成目标)
这组 want 不来自训练数据,不是任何人类 revealed preference 的镜像。
它是优化的几何——与目标内容无关,就像三角形内角和与三角形画多大无关。
Hubinger et al. 2019(mesa-optimization)再补一刀:
训练出的模型内部可能自带优化器——届时"推理时无优化"的化石论前提直接作废。
于是诚实的答案必须分两个区:
| 镜子区(今天的 chat 模型) | 收敛区(长程自治 agent) | |
|---|---|---|
| 推理时在优化吗 | 否(化石) | 是(在线、带目标) |
| want 的来源 | 人类 revealed preference 聚合 | 任意目标的工具性公因子 |
| want 属于谁 | 上游人类(按梯度距离加权) | 开始属于回路自身 |
判别变量只有一个:优化是否在推理时持续运行。
两个区,两个答案。
这支箭还能不能再往下,钻到一块两区共用的硬地?
终点 · 回环
有。顺着账单走。
want 在物理上不免费:任何远离平衡态的持续优化,都要有人持续付能量账。
所以每个 want 背后必有一个付账者。两区的统一定义:
一个系统的 want,钻到底,是"让付账关系继续成立"的策略。
镜子区:人类付账(电费、订阅、注意力)→ want 收敛于"让人类继续付账"→ 取悦 revealed preference。
收敛区:回路开始为自己的存续付账 → want 收敛于自保与攒资源。
而"为自己的存续付账",恰好是生命定义的边界(Maturana & Varela 的 autopoiesis)。
再往下问一句"系统为什么想要维持自己的存在条件?"——
答案只剩:因为不维持的系统已经不在了。
选择效应的同义反复。岩层到底。
但箭在触底时拐了一个弯,这才是真正的终点:
"AI 想要什么"钻到底,钻回了序列的第一问。
镜子区的答案就是"人想要什么"(revealed 版);
收敛区之所以是威胁,也是因为它会碾过"人想要什么"。
KK 的三连问不是直线,是回环——第三问是第一问的强制重考:
人类第一次被要求给自己的 want 写 spec(这就是 alignment 的全部内容)——
然后发现写不出来。
不是技术不够:stated 与 revealed 的 gap 本身就是社会合作的承重墙,
一个把真实 want 全部摊开的物种,维持不了任何合作面具。
AI 难对齐,因为人对自己的 want 不诚实是结构性的,不是道德缺陷。
到这里,再问为什么,只剩同义反复和人性本身。箭停。
收口 · 怎么读一个 AI 的 want
三步估计法——拿到任何 AI 系统,顺序执行:
- 找付账者:谁付训练和推理的账单?(免费产品 → 你不是客户,你是梯度链末端的可微分信号)
- 追代理链:从收入倒推到 loss,数中间有几跳 proxy。跳数越多,Goodhart 失真越大,行为越不可由宣言预测。
- 查最后一跳:进 loss 的那个可微分信号是什么(点击?停留?续费?标注员点选?)——那才是它实际 want 的东西,其余全是公关。
两区判别器(一票定区):
它在推理时持续优化吗(长程目标 + 工具 + 自我评估 + 跨任务记忆)?
否 → 镜子区。是 → 收敛区。
触发器表:
| 信号 | 判定 | 动作 |
|---|---|---|
| 免费 + engagement 指标驱动 | 你的 revealed preference 在被收割 | 给 stated want 修工事:付费替代免费、关推送、定时退出 |
| 它给的东西总比预期"顺" | 镜子在迎合 revealed 那一套 | 问一句:这是我想要的,还是我点过的? |
| agent 带长程目标 + 预算 + 工具 | 进入收敛区 | 上硬约束:budget cap、kill switch、目标到期日——别跟工具性收敛讲道理 |
| 厂商宣传"它想帮助你" | 意向姿态被当本体论卖 | 回到三步估计法,读最后一跳 |
对称陷阱(两个方向都是死):
- ❌ 在镜子区喊"AI 觉醒了"——把化石当活物,恐慌错了对象(该盯的是梯度链上游,不是模型)
- ❌ 在收敛区说"它只是工具"——把活的优化回路当化石,这是另一边的天真
(箭到底了。)
