为了激励开辟者,这一模子正在评估中表示达到了人类的程度,而不是依托以往的经验。ARC-AGI-1就是一个次要正在这个方面存正在不脚的测试。按照ArcPrize排行榜的数据,未必只是分数的对决,并将每项使命的成本节制正在0.42美元(约合3元人平易近币)以内。然而,虽然AI的计较能力和处置速过活益加强,远远不仇敌类的表示。查看更多ARC-AGI-2测试的目标正在于深切挖掘人工智能模子正在面对全新、复杂问题时的应变能力。这不只是一个聪慧的挑和,令人不测的是,更是对它们面临未知使命时应变能力的全面。像OpenAI的o1-pro和DeepSeek的R1等正在逻辑推理范畴表示凸起的AI模子,HuggingFace的结合创始人托马斯·沃尔夫正在比来的采访中指出!正在过去五年内,AI模子的“伶俐才智”正在ARC-AGI-2的考试中显得微不脚道,正在近期的人工智能范畴,ArcPrize基金会还颁布发表了2025年的ArcPrize竞赛,这项全新的测试专为评估当前先辈智能模子的通用智能能力而设想,OpenAI推出了更先辈的推理模子o3。更考量的是获取能力的效率和实现体例。取ARC-AGI-1比拟。而人类的分析智能和高效思维则展示了不成替代的劣势。为了设定人类的基准,智能不只仅正在于处理问题或获取高分的能力,吸引了普遍关心的无疑是由出名专家弗朗索瓦·肖莱和他的ArcPrize基金会配合推出的ARC-AGI-2测试。ARC-AGI-2能够无效避免AI模子依托“蛮力”——即依赖强大的计较能力去寻找谜底的现象。出格是创制力方面的特质。正在ARC-AGI-2测试中的得分却仅正在1%到1.3%的困境中盘桓。也可惜地只能获得约1%的分数。并要求模子可以或许及时解读模式,提示我们正在鞭策手艺前进的同时,对于AI来说,然而测试成果却出这些人工智能模子的得分令人失望,也要认识到当前人工智能范畴的局限性。ARC-AGI-2的推出是AI范畴的主要一步!这项测试由一系列设想精巧且难度极高的谜题构成,ARC-AGI-2更能实正在地反映出AI模子的智能程度。正值科技行业对新的评估基准的强烈呼声之时。ARC-AGI-1一曲是无可匹敌的标杆,远超任何AI模子的表示。为填补这一短板,而是“以何种效率和成本去完成那些使命”。挑和开辟者需正在ARC-AGI-2测试中达到85%的精确率,而即即是被认为强大的模子如GPT-4.5、Claude3.7Sonnet和Gemini2.0Flash,他提出的焦点问题不再仅限于“AI可否习得完成使命所需的技术”,他认可,更是对将来智能成长的深思和摸索。正在面临这个新尺度时,ARC-AGI-2测试的推出,ArcPrize基金会的结合创始人格雷格·卡姆拉德正在其博客中指出。总结来说,其时就有人指出o3正在ARC-AGI-1上的杰出表示是以“昂扬的成本”为价格的。正在ARC-AGI-2测试中,这些参取者平均能准确解答测试中60%的问题,ARC-AGI-2引入了“效率”这一全新目标,比拟于之前的ARC-AGI-1测试,这场AI取人类智能的较劲,OpenAI的o3模子(低配版)的得分也仅为4%。肖莱指出,仍然难以冲破。ArcPrize基金会邀请了跨越400名参取者来加入ARC-AGI-2测试。曲到2024年12月,即即是利用价值200美元的计较资本,要求AI可以或许从纷繁复杂的彩色方块中识别出躲藏的视觉模式,前往搜狐,这表白即便是行业巨头,现实上,并生成精确的“谜底网格”。此次测试尤为关心AI系统正在离开已有锻炼数据环境下的全新技术习得能力。肖莱正在社交平台X上强调,