爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

聂卫平告别仪...

从卖工具到做...

江俊晋级斯诺...

土媒：加拉塔...

E句话| 儿...

中国色特别策...

中经评论：“0糖”商标误导市场不能零处罚

闻泰科技回应：个别外籍高管试图颠覆公司治理结构

许绍雄患癌仍敬业！今年参演9部作品努力宣传剧集

惠州4A景区改造遭抵制旅居业主：站阳台看海变看商铺

左宗棠抬棺西征背后有＂十八条扁担＂ 90岁老人寻其后人

媒体：一级政府拒不执行法院判决是非常恶劣的示范

天籁出新款，鸿蒙座舱+燃油车，合资新出路来了？

190万赞的爆款女孩，等待代表作

轴距3066mm 全新奥迪A6L将于1月15日首发

徐彬：接到狼队电话以为诈骗不想等25岁出去邵佳一让我看淡金钱

赖清德求特朗普让中国大陆放弃对台用武朱立伦怒批

英媒抛出谬论：中国的空气质量改善加速了全球变暖

英超：维拉3比1富勒姆取联赛首胜

销量五年连跌，转型未起色，为何日系车最“困难”的是本田？

俄总统助理：俄方移交1003具乌军士兵遗体

唐山银行持续为股东及关联方“输血”，去年关联贷款不良率比全行平均水平高6倍多

1斤240元的“盐中爱马仕”，既是颜值税，更是智商税

进博面对面｜爱茉莉太平洋许达仁：深耕中国，本土创新是制胜关键

中方回应是否会向伊朗提供军事支持

于晓光做梦没想到，李在明访华秋瓷炫竟火出圈

特朗普扬言：美国已经变成了一个真正的联合国

苹果预计今年不会发布标准版 iPhone 18 推迟到 2027 年

法尔克：皇马考虑今夏以1.6亿至1.65亿欧元求购奥利塞

美国国会的监督机构对联邦住房金融管理局局长Pulte展开调查