← 返回列表

追本之箭 — 成瘾与笼子

2026-04-14 · 4 层下钻

追本之箭 — 成瘾与笼子

2026-04-14 Tue 21:21


起点

"成瘾是一种适应。成瘾的不是你,而是你生活的笼子。"——约翰·哈里(Johann Hari)

朴素的读法把这句当成一句温柔的赦免:别怪自己,怪环境。听上去像心理安慰。

但它真正的刀刃不在"安慰",在一个被藏起来的等式——

成瘾不是你得了的一种病,是你的神经系统在给定约束下解出的最优策略

药不是自变量。笼子是系数。

如果这是真的,那一切"戒"的逻辑都站错了地方:

你在删掉一个方程的,却一根手指都没碰那个方程

解被抹掉,方程还在——它会再解一次。这就是复发的数学形态。

所以问题不再是"怎么把药拿走"。

是:这道方程的系数,是谁写的?

往下钻——成瘾越往底看,越不像"失控",越像一个冷静到可怕的最优化过程。

而每一层地面塌下去,都露出写系数的那只手,离笼子更近一点。


第一层 · 选择

第一个地面,在行为经济学脚下。

1961年,Richard Herrnstein 发现了匹配律(matching law):动物把行为分配给各个选项的比例,正比于各选项的强化率。不是非此即彼地挑一个,是按回报率配比

把这条律放进成瘾,结论很冷:

成瘾者不是失去了选择能力。他在精确地执行匹配律——

当环境里别的强化物稀缺(没工作、没关系、没意义、没值得做的事),药的相对强化率就趋近于 1。

匹配律下,最优配比就是:几乎全押在药上。

Gene Heyman 在《Addiction: A Disorder of Choice》(2009) 把这点推到底:成瘾是一种选择——但不是"道德败坏"的选择,是局部理性的选择。给定你面前那张回报表,押药是的。

这恰好解释了主流叙事解释不了的事:

为什么大量成瘾者,在回报表被改写的瞬间(坐牢、生孩子、突然有了值得活的东西)会不靠治疗地停下来——

因为另一个选项的强化率,第一次压过了药。匹配律自动重配。

裂缝:但匹配律只说"行为跟着强化率走"。它没回答为什么药的强化率能高到这地步——凭什么一管化学物,能在回报表上压过食物、性、爱?这只描述了配比,没碰到那个让药发光的机制。

第二层 · 预测

往下一层,是神经科学,地面叫预测误差

最大的误解:多巴胺是"快感分子"。

不是。1997年 Wolfram Schultz 的实验把这件事钉死:多巴胺编码的不是快感,是奖励预测误差(reward prediction error)——"这次比我预期的好多少"。

关键在"预期"。

自然奖励有一个自我熄灭机制:一旦你学会预测它,预测误差归零,多巴胺就安静。吃第十口蛋糕,多巴胺已经不响了。学习把惊喜磨平——这是设计,不是缺陷。

成瘾物质做的事,是药理学地短路了这个熄灭机制:

它不走"感官→预期→比较"那条会衰减的回路,直接往预测误差信号里注入脉冲。

于是在大脑的价值地图上,药变成一个永远比预期好的异常点——一个学不会、磨不平的惊喜。

把第一层接上来:

匮乏的笼子 = 价值地图上一整片荒漠,所有自然奖励的预测误差都趋近于零(要么被 learned 磨平了,要么根本够不到)。

药 = 这片荒漠里唯一还在持续放光的点。

匹配律不是在抽象地配比。它是在一张几乎全黑的价值地图上,对着唯一的光源配比。

裂缝:可预测误差再大,也只是一个信号。信号本身不强迫任何人。一个"永远比预期好"的标记,怎么就变成了身体离不开的强制?光,怎么变成了锁?

第三层 · 控制

再往下,进控制论。地面叫稳态被劫持

身体是一台负反馈控制器:把体温、血糖、情绪基线……一切关键变量,拉回一个 set point。

但 Peter Sterling 提出的 allostasis(适应性稳态,1988) 说了更狠的一件事:set point 不是固定的。系统长期承受扰动时,会移动基线去适应——为了短期活命,牺牲长期。

Koob 与 Le Moal 把这套搬进成瘾("享乐稳态失调",Science 1997):

反复用药 → 系统判定"高刺激是新常态" → 它重设基线,调低自身的内源奖赏产能。

于是耐受出现:同样的药,效果越来越弱。

更致命的是反向——没有药 = 现在低于新基线 = 痛苦

这一刻,成瘾的性质翻转了:

从"追求快感"(够光),变成"逃避戒断"(维持那个被移走的稳态)。

药从奖励,降格成维持稳态的必需输入。系统现在需要它,才能回到"正常"。

而"笼子",在这一层有了精确的工程定义:

笼子 = 持续不断的扰动输入。 慢性应激、慢性匮乏、慢性威胁——它们持续把控制系统往坏稳态推。Solomon 的对立过程理论(1974)补上时间维度:每个刺激自带一个相反的后效,反复施加,后效长大、变慢、主宰——快感的影子最后吞掉快感本身。

裂缝:可控制论只说"系统会移动基线去适应"。它没回答:为什么移过去的基线回不来?扰动撤掉了(人出狱了、环境变好了),稳态为什么还在坏的地方?一个负反馈系统,按理该自己滑回去——它凭什么不?

第四层 · 吸引子

这一层,换成动力系统的语言。地面叫势阱

把所有可能的身心状态,铺成一片地形——高处是糟状态,低处是舒服状态。系统像一颗球,永远往脚下更低的方向滚。生物学家 Waddington 早就用这张"地形图"描述发育:状态被吸引子盆地(attractor basin)捕获,落进哪个谷,就稳在哪个谷。

成瘾,就是球滚进了一个很深的局部势阱:

谷底很低(药确实有效地解决了当下的痛),所以稳;

但它是局部最优,不是全局最优——周围明明有更好的谷,球却出不去。

为什么出不去?因为逃离势阱,必须先往上爬——先变得更糟,才能翻过山脊去到更好的谷。

而戒断的全部痛苦,就是这段上坡。一松手,滚回谷底。

现在把"笼子"翻成地形语言,它的作用一下就清楚了:

笼子不改变球,笼子改变地形。

慢性应激和匮乏做的事,是抬高周围所有别的谷(自然奖赏被压平、够不到),同时加深药那个谷

于是药阱变成地形里唯一的深谷。球滚进去,是重力,不是软弱

这就是为什么"靠意志力戒"在这一层显得如此荒谬:

你在要求一颗球,违抗它脚下的坡度,靠"决心"悬在半山腰。

能撑一阵。但你一分神、一耗尽,重力立刻接管。

裂缝:那最底——为什么生命系统会被局部势阱锁死?它为什么不能"看一眼全局地图",直接跳到最好的谷?这是大脑特有的 bug,还是某种更普遍、连机器都逃不掉的数学定律

终点 · 梯度

箭到底了。底是一条数学定律,不是生物学。

把"球滚下坡"写成算法,它就是梯度下降(gradient descent):每一步,只看此刻脚下哪个方向最陡,往那个方向挪一点。

而梯度下降有一条铁律——

任何只靠局部梯度信息的优化器,都会被局部最优(local minimum)捕获。

这不是缺陷,是定义。一个只能感知"此刻哪边更好"的优化器,在数学上无法主动选择"先变糟,去够一个它看不见的更好"。因为"先变糟" = 梯度为正 = 它的更新规则禁止的方向。

生命,就是一台局部优化器。

进化没给我们全局地图——只给了"此刻哪个方向感觉更好"的梯度感受器(那正是第二层的预测误差)。

我们看不见全局。我们只能跟着脚下的坡走。

于是成瘾的最底层真相浮出来:

成瘾不是意志力的失败。是梯度下降在一片被笼子重塑过的损失曲面上,正确地收敛到了局部最优。

它锁死你,不因为它强,因为逃离它要求你做一件局部优化器在数学上做不到的事——主动、持续地朝"更糟"走,直到翻过山脊。

这一步推出两个不可回避的结论:

第一,意志力必然不可靠。 "在原地施力对抗梯度"——这是定义上的西西弗斯。不是你不够坚强,是你用错了物理。

第二,重塑地形必然有效。 你不能命令一个梯度下降算法忽略梯度。你只能重画它脚下的损失曲面——把别的谷挖深(重建关系、意义、值得做的事),把药那个谷填浅(隔离线索、改变环境)。地形一变,同一套梯度下降自己滚向新谷。不需要意志力。这正是匹配律在第一层早就预言的:回报表一改,配比自动重配。

绕了五层,绳头收回到哈里那句话——但现在它不再是一句安慰,是一条优化定理:

"不是你,是笼子" = 不要在球上施力,去改地形。


收口:别问"我怎么管住自己",问"我脚下的曲面长什么样"

三个证伪点(先把刀架在自己脖子上)

"全是笼子" 是一句宿命论的免责声明。

同一个笼子,有人成瘾有人不——因为损失曲面不只由环境写,也由基因和早年塑形刻就。地形是合著的。把责任全外包给环境,等于宣布"我能动的那部分地形不存在"——这本身是另一种放弃。

硬证伪:在极好环境里依然成瘾的人(被爱、富足、有连接)。

纯外部笼子假说在这里。诚实的修补:笼子不必是外部匮乏,也可以是基因/创伤把"药那个谷"刻得独深。但承认这点,就削弱了"纯环境决定"的强命题——它不是万能钥匙。

对称陷阱:"换个环境就能戒"。

反例:换城市、进康复中心(换了外笼)却复发——因为内部地形(默认触发线索、关系模式、自我叙事)被原样打包带走了。换外笼、没动内景 = 换汤不换药。

损失曲面诊断四问

① 我脚下这片地形,别的谷是被填平了,还是我只是够不到?——是真匮乏,还是注意力被锁死。

② 药那个谷有多深? 我现在是在追快感(还在够光),还是在逃戒断(维持已移走的稳态)?后者意味着基线已重设,难度量级不同。

③ 逃离需要的"上坡"有多陡? 我能独自承受这段先变糟吗,还是需要一个外力替我推过山脊?

④ 我能重塑的那部分地形,具体是哪几铲?——挖深哪个别的谷,填浅药那个谷。

三个该的姿态(全是"改地形",没有一个是"在球上使劲")

挖深别的谷 > 填浅药的谷:先建立值得活的东西(关系、意义、能上手的事),让自然奖赏的预测误差重新发光——这是给匹配律新的回报项。删旧解之前,先造新解。

借外力提供非局部信息:局部优化器自己跳不出局部最优。他人、社群、承诺装置、12 步、外部结构——它们的作用不是"监督你自律",是替你提供你自己产生不了的、朝向更好谷的那一推。这是连接为什么有效的数学解释,不是鸡汤。

改环境曲率,而非考验意志:隔离线索、改变物理环境、移除即时可得性——等于在物理上把药那个谷的入口抬高。让正确的事顺着梯度,而不是逆着。

三个不该的姿态

❌ 靠意志力在原地对抗梯度(定义上的西西弗斯,随耗竭破功)

❌ 把成瘾当道德 / 纪律问题(它是最优化收敛,不是品格败坏——骂自己 = 对算法做道德审判)

只换外笼、不动内景(内部损失曲面原样带走,必然滚回原谷)

最后一句

成瘾不是你坏,是你的优化器忠实——它在一片被笼子重画过的曲面上,正确地滚向了最近的谷。

所以别再问"我怎么有意志力管住自己"。那是命令一颗球违抗重力。

问:我脚下的损失曲面长什么样?哪个谷被填平了,哪个谷被挖深了,我能拿起铲子动哪一铲?

你改不了梯度下降这条定律。

但地形,是可以重画的。


(箭到底了。)


成瘾与笼子 漫画卡
点击查看大图

💬 评论