追本之箭 — 成瘾与笼子

2026-04-14 · 4 层下钻

追本之箭 — 成瘾与笼子

2026-04-14 Tue 21:21

起点

"成瘾是一种适应。成瘾的不是你，而是你生活的笼子。"——约翰·哈里（Johann Hari）

朴素的读法把这句当成一句温柔的赦免:别怪自己，怪环境。听上去像心理安慰。

但它真正的刀刃不在"安慰"，在一个被藏起来的等式——

成瘾不是你得了的一种病，是你的神经系统在给定约束下解出的最优策略。

药不是自变量。笼子是系数。

如果这是真的，那一切"戒"的逻辑都站错了地方:

你在删掉一个方程的解，却一根手指都没碰那个方程。

解被抹掉，方程还在——它会再解一次。这就是复发的数学形态。

所以问题不再是"怎么把药拿走"。

是:这道方程的系数，是谁写的？

往下钻——成瘾越往底看，越不像"失控"，越像一个冷静到可怕的最优化过程。

而每一层地面塌下去，都露出写系数的那只手，离笼子更近一点。

第一层 · 选择

第一个地面，在行为经济学脚下。

1961年，Richard Herrnstein 发现了匹配律（matching law）:动物把行为分配给各个选项的比例，正比于各选项的强化率。不是非此即彼地挑一个，是按回报率配比。

把这条律放进成瘾，结论很冷:

成瘾者不是失去了选择能力。他在精确地执行匹配律——

当环境里别的强化物稀缺（没工作、没关系、没意义、没值得做的事），药的相对强化率就趋近于 1。

匹配律下，最优配比就是:几乎全押在药上。

Gene Heyman 在《Addiction: A Disorder of Choice》(2009) 把这点推到底:成瘾是一种选择——但不是"道德败坏"的选择，是局部理性的选择。给定你面前那张回报表，押药是对的。

这恰好解释了主流叙事解释不了的事:

为什么大量成瘾者，在回报表被改写的瞬间（坐牢、生孩子、突然有了值得活的东西）会不靠治疗地停下来——

因为另一个选项的强化率，第一次压过了药。匹配律自动重配。

裂缝：但匹配律只说"行为跟着强化率走"。它没回答为什么药的强化率能高到这地步——凭什么一管化学物，能在回报表上压过食物、性、爱？这只描述了配比,没碰到那个让药发光的机制。

第二层 · 预测

往下一层，是神经科学，地面叫预测误差。

最大的误解:多巴胺是"快感分子"。

不是。1997年 Wolfram Schultz 的实验把这件事钉死:多巴胺编码的不是快感，是奖励预测误差（reward prediction error）——"这次比我预期的好多少"。

关键在"预期"。

自然奖励有一个自我熄灭机制:一旦你学会预测它，预测误差归零，多巴胺就安静。吃第十口蛋糕，多巴胺已经不响了。学习把惊喜磨平——这是设计，不是缺陷。

成瘾物质做的事，是药理学地短路了这个熄灭机制:

它不走"感官→预期→比较"那条会衰减的回路，直接往预测误差信号里注入脉冲。

于是在大脑的价值地图上，药变成一个永远比预期好的异常点——一个学不会、磨不平的惊喜。

把第一层接上来:

匮乏的笼子 = 价值地图上一整片荒漠，所有自然奖励的预测误差都趋近于零（要么被 learned 磨平了，要么根本够不到）。

药 = 这片荒漠里唯一还在持续放光的点。

匹配律不是在抽象地配比。它是在一张几乎全黑的价值地图上，对着唯一的光源配比。

裂缝：可预测误差再大，也只是一个信号。信号本身不强迫任何人。一个"永远比预期好"的标记，怎么就变成了身体离不开的强制？光，怎么变成了锁？

第三层 · 控制

再往下，进控制论。地面叫稳态被劫持。

身体是一台负反馈控制器:把体温、血糖、情绪基线……一切关键变量，拉回一个 set point。

但 Peter Sterling 提出的 allostasis（适应性稳态，1988） 说了更狠的一件事:set point 不是固定的。系统长期承受扰动时，会移动基线去适应——为了短期活命，牺牲长期。

Koob 与 Le Moal 把这套搬进成瘾（"享乐稳态失调"，Science 1997）:

反复用药 → 系统判定"高刺激是新常态" → 它重设基线，调低自身的内源奖赏产能。

于是耐受出现:同样的药，效果越来越弱。

更致命的是反向——没有药 = 现在低于新基线 = 痛苦。

这一刻，成瘾的性质翻转了:

从"追求快感"（够光），变成"逃避戒断"（维持那个被移走的稳态）。

药从奖励，降格成维持稳态的必需输入。系统现在需要它，才能回到"正常"。

而"笼子"，在这一层有了精确的工程定义:

笼子 = 持续不断的扰动输入。 慢性应激、慢性匮乏、慢性威胁——它们持续把控制系统往坏稳态推。Solomon 的对立过程理论（1974）补上时间维度:每个刺激自带一个相反的后效，反复施加，后效长大、变慢、主宰——快感的影子最后吞掉快感本身。

裂缝：可控制论只说"系统会移动基线去适应"。它没回答:为什么移过去的基线回不来？扰动撤掉了（人出狱了、环境变好了），稳态为什么还卡在坏的地方？一个负反馈系统，按理该自己滑回去——它凭什么不？

第四层 · 吸引子

这一层，换成动力系统的语言。地面叫势阱。

把所有可能的身心状态，铺成一片地形——高处是糟状态，低处是舒服状态。系统像一颗球，永远往脚下更低的方向滚。生物学家 Waddington 早就用这张"地形图"描述发育:状态被吸引子盆地（attractor basin）捕获，落进哪个谷，就稳在哪个谷。

成瘾，就是球滚进了一个很深的局部势阱:

谷底很低（药确实有效地解决了当下的痛），所以稳;

但它是局部最优，不是全局最优——周围明明有更好的谷，球却出不去。

为什么出不去？因为逃离势阱，必须先往上爬——先变得更糟，才能翻过山脊去到更好的谷。

而戒断的全部痛苦，就是这段上坡。一松手，滚回谷底。

现在把"笼子"翻成地形语言，它的作用一下就清楚了:

笼子不改变球，笼子改变地形。

慢性应激和匮乏做的事，是抬高周围所有别的谷（自然奖赏被压平、够不到），同时加深药那个谷。

于是药阱变成地形里唯一的深谷。球滚进去，是重力，不是软弱。

这就是为什么"靠意志力戒"在这一层显得如此荒谬:

你在要求一颗球，违抗它脚下的坡度，靠"决心"悬在半山腰。

能撑一阵。但你一分神、一耗尽，重力立刻接管。

裂缝：那最底——为什么生命系统会被局部势阱锁死？它为什么不能"看一眼全局地图"，直接跳到最好的谷？这是大脑特有的 bug，还是某种更普遍、连机器都逃不掉的数学定律？

终点 · 梯度

箭到底了。底是一条数学定律，不是生物学。

把"球滚下坡"写成算法，它就是梯度下降（gradient descent）:每一步，只看此刻脚下哪个方向最陡，往那个方向挪一点。

而梯度下降有一条铁律——

任何只靠局部梯度信息的优化器，都会被局部最优（local minimum）捕获。

这不是缺陷，是定义。一个只能感知"此刻哪边更好"的优化器，在数学上无法主动选择"先变糟，去够一个它看不见的更好"。因为"先变糟" = 梯度为正 = 它的更新规则禁止的方向。

生命，就是一台局部优化器。

进化没给我们全局地图——只给了"此刻哪个方向感觉更好"的梯度感受器（那正是第二层的预测误差）。

我们看不见全局。我们只能跟着脚下的坡走。

于是成瘾的最底层真相浮出来:

成瘾不是意志力的失败。是梯度下降在一片被笼子重塑过的损失曲面上，正确地收敛到了局部最优。

它锁死你，不因为它强，因为逃离它要求你做一件局部优化器在数学上做不到的事——主动、持续地朝"更糟"走，直到翻过山脊。

这一步推出两个不可回避的结论:

第一，意志力必然不可靠。 "在原地施力对抗梯度"——这是定义上的西西弗斯。不是你不够坚强，是你用错了物理。

第二，重塑地形必然有效。 你不能命令一个梯度下降算法忽略梯度。你只能重画它脚下的损失曲面——把别的谷挖深（重建关系、意义、值得做的事），把药那个谷填浅（隔离线索、改变环境）。地形一变，同一套梯度下降自己滚向新谷。不需要意志力。这正是匹配律在第一层早就预言的:回报表一改，配比自动重配。

绕了五层，绳头收回到哈里那句话——但现在它不再是一句安慰，是一条优化定理:

"不是你，是笼子" = 不要在球上施力，去改地形。

收口:别问"我怎么管住自己"，问"我脚下的曲面长什么样"

三个证伪点（先把刀架在自己脖子上）

❌ "全是笼子" 是一句宿命论的免责声明。

同一个笼子，有人成瘾有人不——因为损失曲面不只由环境写，也由基因和早年塑形刻就。地形是合著的。把责任全外包给环境，等于宣布"我能动的那部分地形不存在"——这本身是另一种放弃。

❌ 硬证伪:在极好环境里依然成瘾的人（被爱、富足、有连接）。

纯外部笼子假说在这里破。诚实的修补:笼子不必是外部匮乏，也可以是基因/创伤把"药那个谷"刻得独深。但承认这点，就削弱了"纯环境决定"的强命题——它不是万能钥匙。

❌ 对称陷阱:"换个环境就能戒"。

反例:换城市、进康复中心（换了外笼）却复发——因为内部地形（默认触发线索、关系模式、自我叙事）被原样打包带走了。换外笼、没动内景 = 换汤不换药。

损失曲面诊断四问

① 我脚下这片地形，别的谷是被填平了，还是我只是够不到？——是真匮乏，还是注意力被锁死。

② 药那个谷有多深？ 我现在是在追快感（还在够光），还是在逃戒断（维持已移走的稳态）？后者意味着基线已重设，难度量级不同。

③ 逃离需要的"上坡"有多陡？ 我能独自承受这段先变糟吗，还是需要一个外力替我推过山脊？

④ 我能重塑的那部分地形，具体是哪几铲？——挖深哪个别的谷，填浅药那个谷。

三个该的姿态（全是"改地形"，没有一个是"在球上使劲"）

✅ 挖深别的谷 > 填浅药的谷:先建立值得活的东西（关系、意义、能上手的事），让自然奖赏的预测误差重新发光——这是给匹配律新的回报项。删旧解之前，先造新解。

✅ 借外力提供非局部信息:局部优化器自己跳不出局部最优。他人、社群、承诺装置、12 步、外部结构——它们的作用不是"监督你自律"，是替你提供你自己产生不了的、朝向更好谷的那一推。这是连接为什么有效的数学解释，不是鸡汤。

✅ 改环境曲率，而非考验意志:隔离线索、改变物理环境、移除即时可得性——等于在物理上把药那个谷的入口抬高。让正确的事顺着梯度，而不是逆着。

三个不该的姿态

❌ 靠意志力在原地对抗梯度（定义上的西西弗斯，随耗竭破功）

❌ 把成瘾当道德 / 纪律问题（它是最优化收敛，不是品格败坏——骂自己 = 对算法做道德审判）

❌ 只换外笼、不动内景（内部损失曲面原样带走，必然滚回原谷）

最后一句

成瘾不是你坏，是你的优化器忠实——它在一片被笼子重画过的曲面上，正确地滚向了最近的谷。

所以别再问"我怎么有意志力管住自己"。那是命令一颗球违抗重力。

问:我脚下的损失曲面长什么样？哪个谷被填平了，哪个谷被挖深了，我能拿起铲子动哪一铲？

你改不了梯度下降这条定律。

但地形，是可以重画的。

(箭到底了。)

追本之箭 — 成瘾与笼子

追本之箭 — 成瘾与笼子

起点

第一层 · 选择

第二层 · 预测

第三层 · 控制

第四层 · 吸引子

终点 · 梯度

收口:别问"我怎么管住自己"，问"我脚下的曲面长什么样"

三个证伪点（先把刀架在自己脖子上）

损失曲面诊断四问

三个该的姿态（全是"改地形"，没有一个是"在球上使劲"）

三个不该的姿态

最后一句

📎 附件

💬 评论