关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者691人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

复旦教授三万字打车报告:原来差异定价真的存在!

网易研究局 浏览 28030

长城汽车10月销售新车14.31万辆 同比增长22.5%

网易汽车 浏览 756

Skip:在全明星赛之后 我们要看看利拉德在六月能否更出色

直播吧 浏览 12498

白宫:拜登明白允许乌军使用美国武器打击俄领土的后果

参考消息 浏览 68254

Tiktok在美再遇围剿?弹窗动员1.7亿用户反击,电话轰炸国会办公室

蓝鲸财经 浏览 12026

帕森斯:哈登证明了他仍能打出统治力 G4让我想起他的MVP赛季

直播吧 浏览 18234

郭士强:本场对于双方而言都非常重要 是季后赛级别的较量

直播吧 浏览 19108

伊周周日热推:电视剧《大江大河之岁月如歌》,电影《年会不能停》......

伊周潮流 浏览 13639

白银飙涨创历史纪录!已无可用的流动性!

国际金融报 浏览 1022

惠普暗影精灵11《英雄联盟》典藏版月底开售,海克斯金色线条装饰

IT之家 浏览 841

辽宁三任省公安厅长贪腐致大面积腐败 43名干部被查处

中国新闻周刊 浏览 74841

乌称挫败针对泽连斯基的暗杀 俄媒:西方嫁祸俄罗斯

环球网资讯 浏览 14495

全球首辆胶囊列车载人测试成功,有望2030年之前正式投产

趣看热点 浏览 25621

张翰一天拍戏23个小时,忙工作忙到心脏疼是一种什么概念?

趣看热点 浏览 27062

文章带女友一家旅游对准丈母娘发飙 新欢酷似姚笛

叶公子 浏览 19133

广州一小区2年抓到60多条蛇 业主:每天出门提心吊胆

极目新闻 浏览 4667

官方声明:王硕威不是福建舰总设计师

界面新闻 浏览 663

安世中国:已建立充足成品与在制品库存,能稳定持续满足客户订单需求

澎湃新闻 浏览 757

智能座舱也能“深度思考”?荣威M7 DMH做到了

IT之家 浏览 584

北科大教授用统计学证明:LK-99存在室温超导可能!中科院物理所再证伪

新智元 浏览 14589

胡塞武装:只要是美国的船只 都会成为我们的目标

极目新闻 浏览 76510
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1