关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1014266人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

惠州4A景区改造遭抵制 旅居业主:站阳台看海变看商铺

每日经济新闻 浏览 8640

左宗棠抬棺西征背后有"十八条扁担" 90岁老人寻其后人

极目新闻 浏览 9404

媒体:一级政府拒不执行法院判决 是非常恶劣的示范

南方都市报 浏览 7126

天籁出新款,鸿蒙座舱+燃油车,合资新出路来了?

Nice好车 浏览 5165

190万赞的爆款女孩,等待代表作

时尚COSMO 浏览 3371

轴距3066mm 全新奥迪A6L将于1月15日首发

车质网 浏览 3607

徐彬:接到狼队电话以为诈骗 不想等25岁出去 邵佳一让我看淡金钱

我爱英超 浏览 3417

赖清德求特朗普让中国大陆放弃对台用武 朱立伦怒批

海峡导报社 浏览 20161

英媒抛出谬论:中国的空气质量改善 加速了全球变暖

环球时报国际 浏览 10725

英超:维拉3比1富勒姆取联赛首胜

体坛周报 浏览 5001

销量五年连跌,转型未起色,为何日系车最“困难”的是本田?

汽扯扒谈 浏览 3561

俄总统助理:俄方移交1003具乌军士兵遗体

新华社 浏览 3912

唐山银行持续为股东及关联方“输血”,去年关联贷款不良率比全行平均水平高6倍多

华夏时报 浏览 722

1斤240元的“盐中爱马仕”,既是颜值税,更是智商税

时代周报 浏览 3766

进博面对面|爱茉莉太平洋许达仁:深耕中国,本土创新是制胜关键

中国商报 浏览 4389

中方回应是否会向伊朗提供军事支持

澎湃新闻 浏览 2817

于晓光做梦没想到,李在明访华秋瓷炫竟火出圈

草莓解说体育 浏览 3489

特朗普扬言:美国已经变成了一个真正的联合国

参考消息 浏览 25330

苹果预计今年不会发布标准版 iPhone 18 推迟到 2027 年

威锋网 浏览 3626

法尔克:皇马考虑今夏以1.6亿至1.65亿欧元求购奥利塞

懂球帝 浏览 1974

美国国会的监督机构对联邦住房金融管理局局长Pulte展开调查

华尔街见闻官方 浏览 3839
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1