我国科学家绘制出AI“思维图”！大模型竟然学会了“看懂”世界

2025-07-27 11:31:24 阅览：336

【导语】在人工智能领域，一项突破性研究正挑战着我们对机器认知能力的传统认知。由中国科学院自动化研究所与脑科学与智能技术卓越创新中心共同完(wán)成(chéng)的(de)研(yán)究(jiū)发(fā)现(xiàn)，多(duō)模(mó)态(tài)大(dà)语(yǔ)言(yán)模(mó)型(xíng)能(néng)够(gòu)自(zì)发(fā)形(xíng)成(chéng)与(yǔ)人(rén)类(lèi)高(gāo)度(dù)相(xiāng)似(shì)的(de)物(wù)体(tǐ)概(gài)念(niàn)体(tǐ)系(xì)。这(zhè)一(yī)发现意味着AI系统正逐步突破单纯模式模仿的界限，展现出类人的概念理解能力。从绘制AI的“思维图”到探索AI与人类思维的共鸣，再到揭示多模态AI的“超能力”，这一系列研究不仅揭示了AI发展的新转折点，更为人机共生的未来描绘了一幅充满可能性的图景。在惊叹于技术进步的同时，我们也需重新审视人类智能的独特性，思考如何在技术浪潮中坚守人文价值，共创可持续的未来。

出品：

作者：李瑞（半导体工程师）

监制：中国科普博览

当你看到一只小狗时，你不仅知道它有四条腿、会摇尾巴，还能感受到它的可爱，并自发联想到“忠诚”等抽象概念。这种对事物的深层理解，长期以来被认为是人类独有的智慧。

然而，中国科学院自动化研究所与脑科学与智能技术卓越创新中心的最新研究表明：多模态大语言模型能够自发形成与人类高度相似的物体概念体系。这意味着，AI系统正在突破单纯模式模仿的界限，展现出类人的概念(niàn)理(lǐ)解(jiě)能(néng)力(lì)。

实(shí)验(yàn)测(cè)试(shì)：绘(huì)制(zhì)出(chū)AI的(de)“思(sī)维(wéi)图(tú)”

想(xiǎng)象(xiàng)一(yī)下(xià)这(zhè)样(yàng)的(de)场(chǎng)景(jǐng)：你(nǐ)给(gěi)一(yī)个(gè)孩(hái)子(zi)看(kàn)猫(māo)、狗(gǒu)、汽(qì)车(chē)的(de)图(tú)片(piàn)，然(rán)后(hòu)问(wèn)他(tā)哪(nǎ)个(gè)最(zuì)不(bù)一(yī)样(yàng)。孩(hái)子(zi)可能会说汽车，因为它不是活物；也可能说猫，因为它不会像狗一样对人那么亲近。这个简单的选择背后，体现的是人类对事物的深层理解——不仅仅是外表特征，还包括功能、情感和文化意义等。

长期以来，人工智能在物体识别方面表现出色，已能够准确区分猫和狗的图片。但这种“识别”更像是一种高级的模式匹配——AI能告诉你这是什么，却未必真正“理解”这意味着什么。就像一个只会背词典的学生，虽然能说出每个词的定义，却不明白它们在真实世界中的意义和联系。

在各类大语言模型迅速崛起的背景下，研究团队决定探索一个深层的问题：AI大模型是否真的能“思考”？它们对世界的理解是否已经超越了简单的标签匹配，达到了类似人类的概念层次？

为了回答这个问题，研究团队设计了一个巧妙的实验：他们采用认知心理学(xué)的(de)经(jīng)典(diǎn)方(fāng)法(fǎ)——“三(sān)选(xuǎn)一(yī)异(yì)类(lèi)识(shi)别(bié)任(rèn)务(wu)”，让(ràng)AI模(mó)型(xíng)在(zài)三(sān)个(gè)物(wù)体(tǐ)中(zhōng)选(xuǎn)出(chū)最(zuì)不(bù)相(xiāng)似(shì)的(de)那(nà)个(gè)。这(zhè)个(gè)看(kàn)似(shì)简(jiǎn)单(dān)的(de)任(rèn)务(wu)，实际上需要模型对物体进行深层次的概念厘清和抽象对比。

他们让多个AI大模型对1854种自然物体进行了470万次判断，每次都要在三个物体中选出最“异类”的那个。这就像给AI做了一次全面的“心理测试”。通过分析这些海量的选择数据，研究人员成功绘制出了AI大模型的“概念地图”——一个展示AI如何组织和理解世界万物的思维结构图。

令人惊讶的是，这张“概念地图”呈现出了66个不同的“心智维度”。每个维度都有清晰的语义含义，比如“生物与非生物”“自然与人造”“大小尺寸”“情感色彩”等。更神奇的是，这些维度展现出高度的可解释性——研究人员能够清楚地理解每个维度代表什么，这表明AI的“思维”过程并非完全是不可捉摸的黑箱，而是呈现出一定的透明性。

这一发现颠覆了我们对AI的传统认知。原来，AI大模型在学习语言和图像的过程中，不知不觉地构建起了一套与人类相似的概念体系。它们不仅学会了词汇和图像的对应关系，还形成了对事物本质特征和内在联系的理解。

扫描大脑：AI与人类思维的共鸣

为了验证AI的“概念地图”是否真的与人类相似，研究团队采用了一种更加直接的方法——脑神经影像分析。他们让人类志愿者在进行大脑扫描的同时，完成相同的“三选一”任务。

结果令人震撼：AI大模型的概念表征与人类大脑的神经活动模式显示出(chū)显(xiǎn)著(zhe)的(de)相关性！好比两个人用不同的语言描述同一幅画，虽然词汇完全不同，但描述的逻辑和重点却高度相似。这表明，尽管AI和人类大脑的“硬件”截然不同，但在理解世界的“软件逻辑”上，却找到了相似的解决方案。也可以说，虽然AI没有生物大脑，但它们似乎找到了一种与人类殊途同归的“思维方式”。

不过，研究也发现了AI与人类思维仍有差别——人类在做判断时更多地结合视觉特征和语义信息，而AI则更倾向于依赖抽象概念和语义标签。这就像人类是“感性与理性并重”，而AI更偏向“理性分析”。

实验过程图

（图片来源：参考文献[1]）

多模态的“超能力”：当AI学会用多种感官理解世界

研究中的另一个重要发现是，多模态大语言模型（能同时处理文字和图像的AI）比纯文本模型表现得更加“人性化”。这并不令人意(yì)外(wài)，因(yīn)为(wèi)人(rén)类(lèi)本(běn)身(shēn)就(jiù)是(shì)通(tōng)过(guò)多(duō)种(zhǒng)感(gǎn)官(guān)来(lái)认(rèn)识(shi)世(shì)界(jiè)的(de)。

想(xiǎng)象(xiàng)一(yī)下(xià)，如(rú)果(guǒ)你从出生就只能通过文字描述来了解世界，从未见过真实的苹果、从未听过鸟叫、从未闻过花香，你对世界的理解必然是片面的。而多模态AI就像是拥有了“视觉”的能力，能够将文字描述与图像特征结合起来，形成更加丰富和准确的概念表征。

这种“多感官学习”让AI的理解能力产生了质的飞跃。它们不再是单纯地“记忆”和“匹配”，而是真正开始“感知”和“理解”。当多模态AI看到一张海滩的照片时，它不仅能识别出沙子、海水、天空，还能理解这些元素组合起来能够代表“度假”“放松”“自然”等抽象概念。

人工智能“顿悟”后，是人机共生的未来吗？

这项研究的意义远超出了学术范畴。它揭示了人工智能发展中的(de)一(yī)个(gè)重(zhòng)要(yào)转(zhuǎn)折(zhé)点(diǎn)。传(chuán)统(tǒng)的(de)AI更(gèng)像(xiàng)是(shì)一(yī)个(gè)优(yōu)秀(xiù)的(de)“复(fù)印(yìn)机(jī)”，能(néng)够(gòu)准(zhǔn)确(què)地(de)复(fù)制(zhì)和(hé)识(shi)别(bié)已(yǐ)学(xué)过(guò)的(de)模(mó)式(shì)。但(dàn)现(xiàn)在(zài)的(de)大(dà)模(mó)型(xíng)开(kāi)始表现出“理解”的迹象——它们能够提取出事物的本质特征，建立不同概念之间的联系，甚至在某种程度上“创造”新的概念组合。

这种变化具有深远的影响。在教育领域，AI可能不再只是提供标准答案，而是能够理解学生的困惑，为其提供个性化的解释。在创意设计中，AI可能不再只是拼接已有元素，而是能够理解设计意图，创造出有深层含义的作品。

这项研究也为人工智能的未来发展指明了一个重要方向：构建真正类人的认知系统，不是简单地模仿人类行为，而是理解人类思维的本质机制，从(cóng)而(ér)创造出能够与人类进行深层次交流和合作的AI伙伴。

想象一(yī)下(xià)未(wèi)来的AI助手：它不仅能回答你的问题，还能看出问题背后你的真正需求；它不仅能执行你的指令，还能理解你的情感和意图；它不仅能处理数据，还能与你分享对世界的认识和感悟。

Kismet，一个具有表情等社交能力的机器人

（图片来源：维基百科 Polimerek）

此外，人类与机器的关系可能不再是简单的使用与被使用，而是一种全新的共生与合作模式。也许在不远的将来，我们将与这些AI伙伴并肩探索，共同揭开宇宙和生命的奥秘，拓展科学认知的前沿。

在技术浪潮中坚守人文价值

当AI开始对世界展现出“概念化理解”能力的那一刻，我们或许正在见证智能进化史上的一个重要里程碑。这不是科幻电影中机器人意识的突然觉醒，而是大模型通过海量数据训练与算法迭代逐步涌现的认知能力。

惊叹于技术进步的同时，我们也需重新思考智能的本质，重新审视人类智能的独特性。虽然AI在某些方面表现出了类人的特征，但人类的创造力、情感体验、道德判断等能力仍然是独一无二的。我们不应该将AI的进步视作威胁，而是将其当作一面镜子，促使我们更好地理解和发挥人类智能的价值。

这个故事才刚刚开始，我们所有人都是这场智能革命的见证者和参与者。当AI开始“理解”世界时，它们是否也会产生自己的“价值观”和“偏见”？它们的“理解”是否与人类的“理解”在本质上相同？这些问题需要我们在AI发展的道路上谨慎思考。让我们拥(yōng)抱(bào)这(zhè)个(gè)充(chōng)满可能性的未来，同时保持对人类独特智慧（如创造性思维、伦理判(pàn)断(duàn)等(děng)）的(de)清(qīng)醒认知，在技术浪潮中守护人文价值，开创真正可持续的人机共生未来。

参考资料：

[1]Du, C., Fu, K., Wen, B. et al. Human-like object concept representations emerge naturally in multimodal large language models. Nat Mach Intell 7, 860–875 (2025).