爆火的“思维链”竟是一个“海市蜃楼”？三大证据实锤→

2025-09-04 09:01:14 阅览：299

【导语】思维链（CoT）提示技术曾被视为提升大语言模型（LLM）推理能力的关键突破，其模拟的类人类推理步骤让人深信LLM正进行深度思考。然而，亚利桑那州立大学的新研究揭示，CoT推理实则是一种对训练数据模式的记忆与匹配，一旦超出训练范围便迅速失效。这一发现引发了AI行业对CoT本质的深刻反思。国外软件工程师Sean Goedecke也对这一研究提出了质疑，认为实验和论证存在局限性。那么，CoT推理究竟是不是一种真正可泛化的逻辑推理呢？本文将深入探讨这一话题。

思维链（CoT）提(tí)示(shì)技(jì)术(shù)已(yǐ)被(bèi)证(zhèng)明能提升大语言模型（LLM）在各类任务中的表现。采用该方法时，LLM 似乎会先生成类似人类的推理步骤（即 CoT 推理），再给出最终答案，这往往让人觉得 LLM 正在进行深思熟虑的推理过程。

然而，亚利桑那州立大学团队在一项新研究中指出：CoT 推理实为脆弱的幻象，一旦超出训练分布范围便会失效。
换句话说，CoT 推理的有效性并非源于模型的逻辑推演能力，而是对训练数据模式的记忆与插值，其本质是高度结构化的模式匹配，而非真正可泛化的逻辑推理。

这一结论引发了人工智能（AI）行业从业者对 CoT 本质的重新审视。

研究团队表示，这项工作深化了人们对 CoT 推理失效原因与条件的理解，凸显了实现真正可泛化推理仍是持续面临的挑战。

从何质疑？

越来越多的研究表明，LLM 往往依赖于表面语义和线索，而非逻辑推理过程。
为此，他们通过提出数据分布的替代视角来质疑 CoT 推理，并进一步探究其失效的原因与时机。他们通过任务（task）、长度（length）和格式（format）三个维度对 CoT 推理进行了剖析。

图｜数据分布视角。CoT 推理的有效性从根本上受限于训练数据与测试查询之间的分布差异程度。

1.任务泛化

任务泛化能力是 CoT 推理面临的核心挑战，它直接检验模型将学到的概念与推理模式应用于未知场景的能力。
任务泛化测试聚焦模型对(duì)“新(xīn)任(rèn)务新结构”的适应能力，包括变换泛化（Transformation Generalization）和元素泛化（Element Generalization）两个维度。

1）变换泛化

在变换泛化实验中，研究人员设计了四种分布偏移场景，从“ID”到“OOD”，逐步升级：
In-Distribution（ID）：测试任务与训练任务完全一致。例如，训练与测试均为“f1∘f1”，此时模型精确匹配率为 100%；

Composition（CMP）：测试任务为训练过的基础操作的新组合。例如，训练“f1∘f2”“f2∘f1”，测试“f2∘f2”，此时精确匹配率降至 0.01%；

Partial Out-of-Distribution（POOD）：测试任务包含至少一个未训练的操作，此时精确匹配率直接将为零；

Out-of-Distribution（OOD）：测试任务为全新操作组合。例如，训练集只见过“f1∘f1”，而测试集要处理“f2∘f2”，此时模型彻底失效。

表｜不同场景下变换泛化能力的全链路评估。

另外，如下表，从 f1∘f2 到 f2∘f2，LLM 能够正确回答 0.1% 的问题。但进一步检查发现，这只是一个巧合，如查询元素为 A, N, A, N，恰好在这两种操作中产生了相同的结果。

研究团队将完整推理链分解为推理步骤与答案进行深入分析后发现，推理步骤与对应答案之间存在高度一致性。
例如，在组合泛化设置下，推理步骤在测试数据分布 f1∘f1 到 f2∘f2 上完全正确，但得出的答案却存在错误。
同样，从 f1∘f2 泛化到 f2∘f1，LLM 能够生成正确答案，但这归因于两种正交变换之间的可交换性，而推理路径并不可靠。

表｜CoT 推理在变换泛化中的不同组件评估。

上述结果表明，CoT 推理无法泛化到新的变换，甚至无法泛化到新的组合变换。与其说 CoT 推理真正理解了文本，不如说它的表现更像是对训练过程中习得模式的简单复刻。

更进一步，研究团队对少量未见数据进行了监督微调（SFT），从而探究 CoT 推理能否推广至未见过的变换。这种方(fāng)式(shì)能(néng)降(jiàng)低(dī)训(xun)练(liàn)集与(yǔ)测(cè)试(shì)集之(zhī)间(jiān)的(de)分(fēn)布(bù)差(chà)异(yì)，这(zhè)可(kě)能(néng)有(yǒu)助(zhù)于(yú) LLM 对(duì)测(cè)试(shì)查(chá)询(xún)进(jìn)行(xíng)泛(fàn)化(huà)。

图｜在不同分布偏移程度下，采用SFT处理未见数据的性能表现。

结果显示，只需要极少量示例样本，就能让模型快速泛化到未见过的变换场景，大幅提升性能。这说明，LLM 非常擅长从数据中快速学习新模式，但也说明其能力范围被见过的模式严格限定。

2）元素泛化

当试图将 LLM 泛化到新任务时，元素泛化是另一个关键因素。
研究团队在固定其他因素后，设置了 ID、CMP 和 OOD 三种场景。其中，在 ID 场景中，测试元素与训练元素使用相同的字母；CMP 场景中，测试元素是由训练时接触过的字母构成新的组合；在 OOD 场景中，测(cè)试(shì)元(yuán)素(sù)是(shì)训练时从未见过的字母。

在组合方面，他们测试了当观察到元素中的所有基本原子时，CoT 推理是否能够泛化到新的组合，如 (A, B, C, D) → (B, C, D, A)。基于组合中的原子顺序，CMP 可以进一步发展。而对于 OOD，构成元素的原子在训练期间是完全未见过的。
结果显示，与变换泛化类似，当模型在所有变换中持续遭遇分布偏移(yí)时(shí)，其(qí)性(xìng)能(néng)会(huì)急(jí)剧下降。从 ID 到 CMP，再到 OOD，在所有情况下，精确匹配度均从 1.00 逐步降至 0。

图｜不同场景和关系下的元素泛化结果。

他们通过 SFT 进一步探索 CoT 推理何时能够泛化到新的元素，如下图。结果显示，当训练数据中出现相似（n 较小）的例子时，性能迅速提高。有趣的是，当 n=3 时，CoT 推理的精确匹配率与性能下限一致，这可能表明 CoT 推理在新颖元素上的泛化能力非常有限，即使在下游任务上进行 SFT 也是如此。

他们还发现，训练过程中答案与推理步骤之间存在准确性不匹配的问题，这在某种程度上可能解释了为什么在某些情况下 CoT 推理不一致。

2.长度泛化

长度泛化研究模型在遇到与训练分布长度不同的测试案例时，其 CoT 推理能力如何退化。
长度差异可能源于文本空间或问题推理空(kōng)间(jiān)。因(yīn)此(cǐ)，研(yán)究(jiū)团(tuán)队(duì)将(jiāng)长(zhǎng)度(dù)泛(fàn)化(huà)分(fēn)解(jiě)为(wèi)两(liǎng)个(gè)互(hù)补(bǔ)维(wéi)度(dù)：文本(běn)长(zhǎng)度(dù)泛(fàn)化(huà)与(yǔ)推(tuī)理(lǐ)步骤泛化。

1）文本长度泛化

文本长度泛化旨在评估当输入文本长度与训练示例不同时，CoT 推理的性能如何变(biàn)化(huà)。考(kǎo)虑(lǜ)到(dào) LLM 处(chù)理(lǐ)长(zhǎng)文本(běn)的(de)方(fāng)式(shì)，这(zhè)一(yī)维(wéi)度(dù)至(zhì)关重(zhòng)要(yào)，因(yīn)为(wèi)现(xiàn)实(shí)世(shì)界(jiè)的(de)问(wèn)题通常涉及不同程度的复杂性，这些问题表现为问题陈述长度、上下文大小或信息密度的差异。
研究团队在文本长度为 4 的数据集上预训练 LLM，同时固定其他因素，并在多种长度上评估(gū)性(xìng)能(néng)。

实(shí)验(yàn)结(jié)果(guǒ)显(xiǎn)示(shì)，模(mó)型(xíng)仅(jǐn)在(zài)文本长度为 4 的训练数据上表现优秀，精确匹配率达到 100%。随着长度差异的增加，CoT 推理长度泛化的有效性会降低，精确匹配率也会降至 0。这表明 LLM 对输入长度等统计特性极其敏感。

表(biǎo)｜文本(běn)长(zhǎng)度(dù)泛(fàn)化(huà)评(píng)估(gū)。

他(tā)们(men)还(hái)探(tàn)讨(tǎo)了(le)使(shǐ)用(yòng)不(bù)同(tóng)填(tián)充(chōng)策(cè)略(è)减(jiǎn)少(shǎo)训(xun)练(liàn)数(shù)据(jù)和(hé)测(cè)试(shì)案(àn)例(lì)之(zhī)间(jiān)的(de)差(chà)异(yì)。他们发现，填充到(dào)最(zuì)大(dà)长(zhǎng)度(dù)对(duì)长(zhǎng)度(dù)泛(fàn)化(huà)没(méi)有(yǒu)贡(gòng)献(xiàn)。然(rán)而(ér)，当(dāng)他(tā)们(men)使(shǐ)用(yòng)分(fēn)组(zǔ)（Group）策(cè)略(è)用(yòng)文本(běn)替(tì)换(huàn)填(tián)充(chōng)时(shí)，性(xìng)能(néng)有(yǒu)所(suǒ)提(tí)高(gāo)。

图｜不同填充策略下文本长度泛化的表现。

2）推理步骤泛化

推理步骤泛化旨在研究模型能否外推到与训练时观察到的不同步骤的推理链。这是多步骤(zhòu)推(tuī)理(lǐ)任(rèn)务(wu)中(zhōng)的(de)常(cháng)见(jiàn)设(shè)置(zhì)。
与文本长度泛化类似，他们使用推理步骤为 2 来预训练 LLM，并在推理步骤为 1 或 3 的数据上进行评估。
结果表明，CoT 推理无法在需要不同推理步骤的数据集间泛化，存在泛化失败的现象。随着未见数据比例的增加，目标数据集上的性能呈现提升趋势。与此同时，由于训练数据量不足，语言模型无法对原始训练数据集进行泛化。这(zhè)说(shuō)明(míng)，模(mó)型(xíng)的(de)性(xìng)能(néng)完(wán)全由(yóu)训(xun)练(liàn)数(shù)据(jù)的(de)分(fēn)布(bù)构(gòu)成(chéng)决(jué)定(dìng)，不(bù)存在超越数据分布的泛化。

图｜不同训练数据组合下的推理步骤泛化测试性能。

3.格式泛化

格式泛化旨在评估 CoT 推理对测试查询中表面形式变化的鲁棒性，这一维度对于确定(dìng)模(mó)型(xíng)是(shì)否(fǒu)已经内化了灵活的、可迁移的推理策略，或仍然依赖于训练期间遇到的具体模板和短语尤为重要。
为此，研究团队通过以下四种扰动模式来模拟真实场景：

插入（Insertion）：在每个原始标记前插入噪声 token；

删除（Deletion）：直接移除原始 token；

替换（Modification）：用噪声标记替代原始 token；

混合模式（Hybrid）：融合多种扰动方式。

实验结果表明，CoT 推理很容易受到格式变化的影响，无论是插入、删除、修改，还是混合模式，都会产生影响正确性的格式差异。他们进一步将查询内容划分为三个部分：元素、变换和提示词。他们发现，元素和变换在格式中起着关键作用，而其他 token 的改动对结果影响不大。

图(tú)｜格(gé)式(shì)泛(fàn)化(huà)性(xìng)能(néng)表(biǎo)现(xiàn)。

反(fǎn)对(duì)质(zhì)疑(yí)

基(jī)于(yú)以(yǐ)上(shàng)研(yán)究(jiū)结果，研究团队得出结论：
CoT 并非真正的逻辑推理机制，而是一种高级的结构化模式匹配形式，其根本局限在于训练阶段所见的数据分布。一旦略微超出该分布范围，其性能便会显著下降，暴露出其"推理"过程的表面性本质。

而且，他们还在论文中写道，“尽管我们的实验采用了在受控环境中从头开始训练的模型，但所揭示的原理可扩展至大规模预训练模型。”这似乎印证了“CoT 看似强大的推理能力本质上是一种脆弱的幻象”的说法。

然而，在国外软件工程师 Sean Goedecke 看来，这项研究的实验和论证存在一些局限性，并进行了反驳。

“不能单凭这篇论文里的‘小儿科’例子，就对推理模型得出如此宽泛的结论。”

原文链接：https://www.seangoedecke.com/real-reasoning/

针对这篇论文，他提出了以下观点：

1.推理很可能需要语言的参与

即便是模拟出来的推理，也必须是在人类语言中进行的推理。推理是一项复杂的任务，需要像人类语言这样复杂的工具。推理任务需要在多个不同选项之间做出选择，不断改变方向，但这篇论文里的例子从结构上就不可能做到这一点。

2.模(mó)型(xíng)规(guī)模(mó)太(tài)小(xiǎo)制(zhì)约(yuē)了(le)结(jié)论(lùn)的(de)普(pǔ)适(shì)性(xìng)

小(xiǎo)型(xíng)模(mó)型(xíng)难(nán)以(yǐ)涌(yǒng)现(xiàn)推(tuī)理(lǐ)能(néng)力(lì)。一(yī)个(gè) 60 万(wàn)参(cān)数(shù)的(de)模(mó)型(xíng)，可(kě)能(néng)可(kě)以(yǐ)学(xué)会(huì)按(àn)顺(shùn)序(xù)应(yīng)用转换规则，但未必聪明到能将这些转换分解成它们各自的组成部分。它没有足够的原始“脑力”来执行相关操作，所以研究结果很难推广到一个 10 亿、100 亿或 1000 亿参数的模型上。
3.缺少与人类推理的对比

这篇论文的核心论点，推理模型在超出其领域时会遇到困难，这对于强大的人类推理者来说也同样成立。人类推理同样依赖经验模板，在陌生领域容易出错。既然推理模型是在大量人类或类人的推理文本上训练出来的，那么它们的推理方式像人类，又何必惊讶呢？

此外，Goedecke 还给出了自己的一些建议——当我们阅读关于模型推理的论文时，需要使(shǐ)用以下启发式方法：
如果它声称 AI 推理在某种程度上是“虚假”的，检查是否有部分（至少）直接评估人类推理技能的质量，或者理想情况下提供“真实”推理的严格哲学定义。如果它指出 AI 模型在推理任务上失败，请检查任务本身是否真的需要推理（即考虑多种方法）或者是否仅仅需要计算（遵循固定算法）。

那么，关于“CoT 推理并非真正可泛化的逻辑推理”这一说法，你怎么看？

作者：小瑜