关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4386人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

男子自带3瓶茅台被服务员调包 摸酒瓶辨温度识破伎俩

封面新闻 浏览 9073

“批评是工作的一部分”:前里尔球员卡巴耶谈其在巴黎圣日耳曼的处境

绿茵情报局 浏览 1944

网友预约26元深夜上门开锁结果被收1300元 商家回应

潇湘晨报 浏览 9769

1-10月全球新能源汽车销量排名

大象新闻 浏览 3932

外套+半身裙封神穿搭!6款显瘦神器保暖不臃肿,冬天美得出彩

Yuki女人故事 浏览 3886

爱泼斯坦案阴影下,高盛或让首席法务官“体面”离开

财通社 浏览 3440

贝克汉姆和长子彻底闹掰!布鲁克林:我们只能通过律师沟通

素素娱乐 浏览 2889

多家车企公布2026年销量目标

电动知家 浏览 3530

她穿一身大红参加葬礼,浪漫又感人?真是活久见哪

Yuki女人故事 浏览 3355

时尚启蒙必看片单,终于更新了

时尚COSMO 浏览 1690

今年最狠悬疑剧,好人为何集体沉沦?

仙女事件簿 浏览 4464

宁波象山沿海进行军事演练 禁止驶入

极目新闻 浏览 5281

今年秋天最流行的6条半裙,怎么搭都好看!

LinkFashion 浏览 5150

张子宇加盟首次未登场:前两场正负值均最差 山东女篮加时胜江苏

醉卧浮生 浏览 3574

于正怒了!状告百万网红大V索赔50万

裕丰娱间说 浏览 4018

理查兹:道曼和萨卡位置重叠,为球员未来发展应该将他外租

懂球帝 浏览 4304

清华联合字节跳动:AI学会用图像思考,让机器像人一样推理世界

科技行者 浏览 3329

中国趁低价狂买石油,什么信号?

米筐投资 浏览 3757

名利双收的成龙,每天为43岁的儿子操碎了心!

叨唠 浏览 3786

上海AI实验室重新定义视频理解:让AI像侦探一样思考长视频

科技行者 浏览 4589

阿根廷3-0阿尔及利亚!梅西世界杯首次戴帽创纪录 16球升历史第1

我爱英超 浏览 103
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1