
裁剪丨%
东谈主类专注于物体的含义,而东谈主工智能则专注于视觉特征。
在畴昔的很多沟通中,比较东谈主类和 AI 中的表征的使命都依赖于全局标衡量量来量化它们的一致性。但若无明确的假定,这些算计步伐也仅仅发挥对皆的经由,而非决定成分。
这就带来了一个很值得想考的问题:「AI 眼中的『同样图像』和东谈主类大脑的判断逻辑到底有多像?」
来自德国普朗克沟通所(Max Planck Institute)与荷兰奈梅亨达彭丁沟通所(Nijmegen)的几位沟通者建议了一种通用框架,用以比较东谈主类与 AI 的表征。
该沟通以「Dimensions underlying the representational alignment of deep neural networks with humans」为题,于 2025 年 6 月 23 日刊登于《Nature Machine Intelligence》。
伸开剩余75%论文连络:https://www.nature.com/articles/s42256-025-01041-7
让 AI 和东谈主类「玩找不同」
此前的很多种对比实验中,遍及聚焦于两种系统的行为计谋(举例,分类),揭示了 DNN 在泛化性能上的局限性。
当今常汲取的相讨论数或讲授方差等转头统计量固然在比较表征对皆方面有所迷惑力,但在未明确假定潜在的对其偏差原因下,这些策画对主要决定属性的讲授本事有限。
团队这次成立的框架受到近期默契科学沟通的启发,揭示了多个可讲授的 DNN 维度,这些维度似乎响应了视觉和语义图像属性,况且与东谈主类进展得极端一致。
看成任务,东谈主类参与者和 DNN(VGG-16)需要从展示的 3 张图像(如猫、狗、笼子)中选出「最不同样」的一张,该任务近似东谈主类对放荡视觉和语义类别的分类行为,合适比较东谈主类和 DNN 的对象暗意。
图 1:通过模拟奇偶项任务中的行为有磋磨来捕捉类东谈主 DNN 对象暗意的磋磨框架。
接下来,该框架会分析 470 万次东谈主类判断和 2.4 万张图像的 AI 响应,用变分镶嵌技巧(VICE)索要「想维维度」:东谈主类获得 68 维「语义脑回路」,AI 生成 70 维「视觉编码」。
在这些维度中,DNN 镶嵌拿获了图像间同样性总变异的 84.03%,而东谈主类镶嵌拿获了总变异的 82.85%,以及给定数据集训导噪声天花板的 91.20%可讲授变异。
维度互异
接下来团队请参与者为每个维度提供标签用以考证不雅察成果。与其肖似的是 DNN 进行边幅时镶嵌的可讲授维度,似乎响应了对象的语义和视觉属性(语义分类、知知趣干、视觉感知等)。
图 2:从东谈主类和 DNN 行为推断出的表征镶嵌。
从成果上看,DNN 的维度不如东谈主类的维度可讲授,因其在归类图像上与东谈主类存在全局性互异。东谈主类主若是由语义维度主导,唯有少许羼杂维度。比较之下 DNN 主要由视觉信息占据。
为了更进一步探索 DNN 中包含的可讲授且可与东谈主类发现的维度比较较的维度,团队使用了 Grad-CAM 生成热图,揭示哪些图像区域启动了 DNN 镶嵌中的维度。
固然 Grad-CAM 能定位 AI 关爱的图像区域,但现实上依然「视觉特征免强」,与东谈主类基于综合认识的「语义编码」皆备不同。举例,东谈主类的「动物」维度对扫数动物图像响应一致,而 AI 的「动物」维度会因布景出现响应波动。
小结
与东谈主类的奏凯比较披露, DNN 达到这些暗意的花式存在很大互异:东谈主类的暗意主要由语义维度主导,但 DNN 则进展出对视觉或羼杂视觉-语义维度的昭着偏好。
DNN 仅近似了东谈主类的语义暗意,同样的行为成果亦然基于不同的镶嵌维度推导出来的。
那么这项沟通的用处究竟在哪?
团队强调,他们的使命有助于贯穿东谈主类和 DNN 在暗意和行为上的互异,还有助于带领畴昔的使命kaiyun网站,细目东谈主类与 AI 对皆的差距,赐与更准确的带领(比如智能识别稽察)。
发布于:天津市