爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

恒瑞前董事长...

欧洲多国向格...

被美围绕的一...

50+女人别...

下周关注｜进...

小维阿：马赛...

特朗普：对委内瑞拉发动军事袭击计划＂泄密者＂已被抓

外观设计微调/功能升级新款山海T2将于四季度上市

婚变传闻真相大白一个月，唐嫣高调官宣喜讯

球迷态度：CBA第一阶段结束，你对你的主队表现满意吗？

斯帕莱蒂为跑轰尤文注入灵魂，奥彭达被重新“救活”

重兵压境与谈判信号并行美国“极限施压”究竟想要什么

全球最大、国内首制万吨级纯电动智能海船“宁远电鲲”号开启海试

砸1亿元跨界，百亿巨头老板电器杀入机器人赛道

秋季穿衣别太复杂，提前准备好这几件单品，百搭经典又不挑人

邮报：内维尔“惊讶红军球员没揍马丁内利”言论收到576起投诉

泰国总理：泰军方已控制几乎全部目标区域

球报总监：穆帅执教切尔西和皇马时不这样，带曼联之后就变了

控股股东拟出让超1亿股！川股德龙汇能筹划控制权变更今年股价涨幅近60%

被翻盘，冰岛80分钟后被乌克兰打入两球，连续两届无缘世界杯

什么信号？有银行直接5.5折卖房

用AI「合成」演员，爱奇艺的新故事翻车了

Meta推出Transformer与Mamba混合AI架构

21岁韩乒一姐状态下滑？混双+女单皆不敌33岁老将韩媒：极易崩盘

车展前的狂欢：4天30场发布会，谁在抢跑谁在焦虑？

法尔克：皇马和切尔西将争夺于帕，签字费是他与拜仁续约障碍

推动新场景大规模应用要打通哪些堵点？专访工信部赛迪研究院胡国栋丨聚焦国常会

被判赔偿220万元海底捞＂小便门＂当事人登报道歉

Artificial Analysis评测新鲜出炉：Kimi K2 thinking位居世界第二，开源第一

马杜罗受审委内瑞拉前情报主管或成美政府＂关键证人＂