推广 热搜:   公司  政策  中国  企业  快速  上海  未来  基金  有限公司 

人类轻松破解的视觉谜题,为何让最强AI集体“挂科”?

   日期:2025-03-30     作者:uqian    评论:0    移动:http://m.uqian.cn/news/6372.html
核心提示:当你在手机游戏里轻松解开一道九宫格谜题时,你也许会觉得这是一个有趣的益智游戏,但你可能不会想到,同样的彩色方块正在AI领域

当你在手机游戏里轻松解开一道九宫格谜题时,你也许会觉得这是一个有趣的益智游戏,但你可能不会想到,同样的彩色方块正在AI领域掀起一场风暴。对于当今最先进的AI模型而言,这样的小游戏,却成为几乎不可逾越的难题。

ARC Prize基金会最新发布的ARC-AGI-2测试中,OpenAI的GPT、谷歌的Gemini等知名大模型,面对看似简单的色块拼图问题,却集体"挂科"。以GPT-4.5、Claude 3.7 Sonnet、Gemini 2位代表的基础大模型,在这场测试中几乎只拿到0分的成绩,而Claude Thinking、R1、o3-mini这样的推理模型,准确率也不超过4%。这场智能评测领域的“高考”,正揭露了当前AI面临的真实困境。

图片


“总奖金100万美元的@arcprize 2025竞赛回来了!”ARC Prize联合创始人Mike Knoop在X平台上宣布,“ARC-AGI-2基准测试仍然对人类来说轻而易举,但对AI来说却更加困难,至今尚未被攻克。”这条推文迅速引发AI开发者社区的热烈讨论。长期关注AI相关技术的Chubby也表示,Arc-AGI-2“比以往任何时候都更具挑战性。”这恰好印证了测试的严苛性——即便是OpenAI专门研发的推理模型o1-pro,表现也远逊于人类。

图片


由知名 AI 研究员 François Chollet 参与创立的 ARC Prize 基金会正在推动这项评估,他们的目标很明确:用 ARC-AGI-2 来检验 AI 是否真的具备通用智能,而不仅仅是比对数据、复述答案。测试一推出,结果让人意外。即使是 OpenAI 最新的 GPT-4.5、Anthropic 的 Claude 3.7 Sonnet,或 Google DeepMind 的 Gemini 2.0 Flash 这样最前沿的 AI,也在测试中表现惨淡,得分基本在 1% 左右。而那些主打推理能力的 AI,比如 OpenAI 的 o1-pro 和 的 R1,表现也只是略好一点,得分仅在 1% 到 1.3% 之间。

针对测试结果的分歧,Cresta联合创始人Tim Shi指出关键差异:“ARC-AGI-1依靠推理模型可以通过暴力搜索解决,而ARC-AGI-2则将真正考验这些推理模型的极限。”

图片


这正是François Chollet在设计时强调的改进方向——新版测试通过动态规则生成等技术,大幅压缩了暴力计算的可能性空间。一名网友的质疑也印证了测试的严谨性:"我记得之前看到推理模型在这个测试中仅取得4%的分数,为什么这里列出的o3类型模型得分接近25%?"对此,Mike Knoop解释称:"o3在v2上的得分是基于v1任务的部分结果估算,完整验证成本过高。我们的最新评估显示o3(高)实际准确率约15%。"

图片


在ARC-AGI-2测试中,400 多名人类受试者组成的测试组,平均正确率达到了 60%,AI 和人类之间的差距仍显而易见。这不仅让业界意识到当前 AI 仍然远未达到真正的 ,也让许多研究者开始重新思考,我们是否需要换一种方式来推动 AI 进步。

ARC-AGI-2 到底是什么?AI 为什么难以应对?

ARC-AGI-2 是 ARC Prize Foundation 推出的新一代通用智能评估基准,它的核心理念是:让 AI 解决它从未见过的问题,而不是依靠过去的数据做出推测。测试的主要形式类似于拼图,AI 需要从由不同颜色方块组成的图案中识别规律,并正确地生成目标图形。这个过程对人类来说并不复杂,但 AI 目前的架构却很难处理。

图片

相比于上一代测试 ARC-AGI-1,新版测试减少了 AI 依赖暴力计算的可能性,迫使模型必须真正理解问题,而不能单纯靠计算力“蛮算”答案。这正是 François Chollet 在设计 ARC-AGI-2 时想要改进的地方。他早前曾指出,许多 AI 之所以能在 ARC-AGI-1 上取得相对不错的成绩,很大程度上是因为它们可以通过大规模计算资源进行“穷举”,而不是真正具备人类式的推理能力。因此,ARC-AGI-2 采用了一些新的机制,确保测试能够衡量 AI 是否真的理解问题,而不仅仅是利用模式匹配和统计相关性猜答案。

<think>

那么,为什么 ARC-AGI-2 会对 AI 如此具有挑战性?关键在于三个核心难点:符号解释、组合推理和上下文规则应用。

首先,符号解释是 AI 目前的一个主要弱点。AI 在处理符号时,往往更倾向于进行表层的模式匹配,而不是理解符号所代表的概念。比如,一个由不同颜色方块组成的图案,在人类看来可能代表某种结构或逻辑关系,但 AI 可能只是把它当成一组像素点,缺乏对其中概念的真正理解。

其次,组合推理对 AI 也是巨大的挑战。人类在解决问题时,往往会同时应用多个逻辑规则,并在不同情况下进行灵活调整。而 AI 目前仍然主要依赖单一的模式匹配,在面对需要结合多个推理步骤的任务时,往往会变得一筹莫展。

最后,上下文规则应用更是让 AI 头疼的地方。人类在解决问题时,可以根据不同的上下文调整自己的思维方式,而 AI 目前仍然难以做到这一点。它们往往只能机械地按照预定义的模式进行操作,而缺乏灵活性。这也是为什么 AI 在 ARC-AGI-2 上的表现远远落后于人类的关键原因。</think>

AI 不能只靠解题,还要讲求效率  

除了正确率的差距,AI 和人类之间的另一个显著区别是效率。人类在解决 ARC-AGI-2 任务时,平均每个任务的成本仅为 17 美元,而 OpenAI 早前推出的 o3 进行类似测试时,每个任务的成本高达 200 美元。换句话说,即便 AI 能够找到答案,它的计算成本依然高得惊人。  

图片

<think>

为什么 AI 在效率上如此不堪?根本原因在于当前的 AI 主要依赖于海量数据训练和庞大的计算资源,它们在面对新问题时,往往需要通过大量计算来尝试不同的可能性,而不是像人类那样快速形成抽象概念,并直接推导出答案。这种计算方式虽然在某些任务上可以取得不错的结果,但在通用智能的测试中就会暴露出它低效的本质。  

这也引发了一个重要的思考:AI 未来的突破方向不应该只是更强大的算力,而是更高效的推理方式。目前,大多数 AI 研究仍然在追求更大的模型、更庞大的数据集,以及更强的计算能力,但这条路是否真的能够带来 AGI,已经开始受到质疑。ARC-AGI-2 的结果表明,仅仅堆叠算力并不能让 AI 变得更“聪明”,我们需要新的方法来提升 AI 的学习和推理能力。</think>

AGI 仍是远方,AI 该如何进化?

ARC-AGI-2 给 AI 研究带来了新的挑战,也让我们重新审视 AI 的发展方向。目前的 AI 在许多任务上已经表现得足够优秀,但它们仍然无法真正做到像人类一样进行灵活的推理和高效的计算。面对全新的问题,它们的表现依然远远落后于人类,这说明 AGI 仍然是一个未解之谜。

<think>

不过,当我们聚焦于AI在特定测试中的失败时,也需要保持一份清醒——正如幼儿园小朋友无法解答微积分并不代表智力缺陷,当前AI在ARC-AGI-2上的挫败,某种程度上可能源于测试标准与AI认知体系的结构性错位。人类进化出对图形符号的直觉理解,本质是数百万年三维空间生存需求的产物;而AI的“认知器官”诞生于文本与图像的关联,它的优势本就不在具象空间的逻辑演绎。

至顶AI实验室认为,就像要求鱼类参加爬树比赛一样,这类测试或许也揭示了评估框架的局限性,却忽略了被评估对象的真实潜力。值得深思的是,当人类执着于用自身智能的镜子去照射AI时,是否正在错失理解另一种智能形态独特价值的可能?</think>

对于AI研究者来说,如果希望真正向AGI迈进,或许应该跳出当前的“数据+算力”范式,寻找更高效、更接近人类思维方式的解决方案。

本文地址:http://www.uqian.cn/news/6372.html    极顶速云 http://www.uqian.cn/ , 查看更多
 
打赏
 
更多>同类行业资讯
0相关评论

公司基本资料信息
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报