关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4392人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

AI的“相变”时刻:为什么我们现在的想象力都太贫乏了?

澎湃新闻 浏览 3472

美国11月ISM制造业PMI萎缩幅度创四个月最大,就业进一步收缩,价格涨

华尔街见闻官方 浏览 3980

1-9月百万级豪车销量:奔驰3款入榜,奥迪出局,仰望U8苦苦支撑?

AGKC阿贵艺车 浏览 4420

纯电续航超400公里,上汽大众全新大型增程式SUV ID.ERA 9X申报

IT之家 浏览 3557

造人形机器人的公司自己先泼冷水:行业存在过度炒作现象

IT之家 浏览 3772

《堡垒之夜》放弃日本iOS,Epic硬刚苹果指控违法

环球网资讯 浏览 3847

王菲窦唯做梦也没有想到,才29岁的女儿,如今已经为他们争光了!

娱乐圈笔娱君 浏览 595

贵州省能源局局长陈华接任茅台集团董事长

网易财经 浏览 4356

美媒披露:美空军8天内向中东地区调派至少42架重型运输机

环球网 浏览 3311

正在热播的五部电视剧,《剥茧》排在第三

农城浪子 浏览 3541

伊姐十一热推:电影《江南:在爱开始的地方等你》;电视剧《围猎》......

伊周潮流 浏览 3851

冬季如何穿的漂亮?看看这27套穿搭就有灵感了,优雅不臃肿

静儿时尚达人 浏览 3991

沙特被指立场转变:美若不打击伊朗 会让其变得更大胆

澎湃新闻 浏览 7788

二代哈弗H9 2026款上市 限时优惠价17.49万元起

网易汽车 浏览 1490

2026年新年首个工作日 中纪委连打4“虎”

南方都市报 浏览 10803

马斯克谈AI未来:五年后手机和APP将消失,人类文明在模拟世界的存亡

深蓝财经 浏览 4370

雪佛兰会退出中国市场吗?

正在说车 浏览 4645

刚说完"很快结束" 特朗普改口:美国要赢得"终极胜利"

参考消息 浏览 30826

吉林延边州珲春市发生5.5级地震 震源深度560千米

界面新闻 浏览 9718

何晴病重照流出,儿子跟前夫生活病中无亲属照顾,人生末路显凄凉

不八卦会死星人 浏览 3926

OPPO K15系列手机规格曝光:6.78英寸直屏、8000mAh电池

IT之家 浏览 1311
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1