关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者3535人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

五一档票房超7亿,《给阿嬷的情书》开分9.0

澎湃新闻 浏览 1365

技能养宠人,好麻烦,好费钱!

时尚COSMO 浏览 4505

英伟达发布新一代Rubin平台,推理成本较Blackwell降10倍,拟下半年发货

华尔街见闻官方 浏览 3661

阿联酋:禁止本国公民前往伊朗、黎巴嫩和伊拉克

上观新闻 浏览 1313

黄金价格走势疯狂,最牛概念股1年价格飙涨超500%

览富财经网 浏览 3474

浪姐7四公小考:6组姐姐5组翻车,唐艺昕团真尴尬,王濛团太难听

娱乐圈笔娱君 浏览 626

不满国安糟糕战绩,工体北看台球迷连唱三首歌表达抗议

懂球帝 浏览 4412

秋季穿衣原来如此简单!记住这几组穿搭公式,得体简约又耐看

静儿时尚达人 浏览 4403

央视王炸定档!1月13日50集历史大剧开播

观察鉴娱 浏览 3573

美日通电话后欧洲集体变脸 日本对华提出一个新要求

博览历史 浏览 32530

马克龙:有必要将伊朗停火协议扩展到黎巴嫩

上观新闻 浏览 1962

视帝扛起大旗,终于有90后当主角的年代剧了

娱乐圈笔娱君 浏览 3407

2026款大众宝来上市 售价11.29-14.39万元

车质网 浏览 3541

46岁周杰伦身患“不死癌症”已超20多年

阿晭评论哥 浏览 4516

牛弹琴:2025年最勇敢的一个动作 背后是全世界的震惊

北京日报客户端 浏览 9894

英伟达H100刚上天,谷歌Project Suncatcher也要将TPU送上天

机器之心Pro 浏览 4330

科技范儿·在现场|“AI+智能座舱”让每次出发都是“懂你的陪伴”

上游新闻 浏览 3836

女佣自杀,最贵凶宅诞生!许家印好牌友要吐血

说财猫 浏览 4457

这家中国民企,破解了“迪拜之眼”难题,还拿下30多项“世界第一”!

国是直通车 浏览 4373

原来她就是黄景瑜背后的老板,曾是央视主持

因果 浏览 3479

四足机器人首次同时「思考+走路」,北大提出链式推理MobileVLA-R1

新智元 浏览 3991
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1