关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101767人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

推特被曝拖欠房租+上亿服务费,马斯克要当"老赖"了?

极客公园 浏览 16432

还能复活?某上海新势力公司宣布预重整

汽车工程师 浏览 374

苹果Vision Pro能否成为“下一台个人电脑”?

DeepTech深科技 浏览 16358

马蒂诺:我们不能只关注门票销售情况,一味让球星不断上场

直播吧 浏览 12766

日媒放风:日央行考虑3月放弃YCC,结束负利率

华尔街见闻官方 浏览 12194

拼多多“千亿扶持”落地半年,“包邮区”持续扩大,更多地区享受便利网购服务

雷峰网 浏览 601

阿里超预期:紧迫、敏捷、强韧、有理想地把信心传递给更多人

秦朔朋友圈 浏览 14726

多项功能优化,护卫舰07将开启新一轮OTA升级

天天汽车 浏览 12392

王一博耐克终止合作,坚决维护祖国利益

趣看热点 浏览 25780

香港政务司司长:涉案人员处心积虑犯罪 害死这么多人

南方都市报 浏览 15607

小S大女儿拍视频曝真容性格活泼 背景引发争议

文艺圈娱乐号 浏览 13134

院士:不认同对院士贿选的指控,谁能搞定百余位院士?

why星人 浏览 16254

迪丽热巴综艺又翻车了!被质疑故意格式化摄像机,诸多行为见人品

缘木不求娱 浏览 13227

敷尔佳:定价过高、盟友倒戈,重营销模式难掩发展困境|ESG案例

网易财经ESG 浏览 685

又被起诉!美媒:特朗普被指控试图推翻败选结果,罪名总数增至91项

环球网资讯 浏览 14412

零碳快报丨2023年氢能经济投资达到340亿美元;中科固能完成近亿元天使轮融资

零碳风云 浏览 11480

11月7日正式预售 零跑Lafa5将于广州车展上市

网易汽车 浏览 817

中恒电气:两款旗舰产品发布,重新定义AI数据中心供电技术标准

览富财经网 浏览 745

年末避险情绪抬升 公募选股遵循涨价硬逻辑

证券时报 浏览 550

经典落幕:苹果正式将初代iPhone SE列为过时产品

环球网资讯 浏览 264

微博视界大会:杨幂丰满有料,白鹿珠圆玉润,迟蓬赢麻了

娱乐圈笔娱君 浏览 701
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1