爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

现在嫌他们老...

50 岁女人...

德国央行行长...

虚假宣传！任...

刺杀李在明凶...

奥巴梅扬：马...

与秦亦铭外出被拍疑恋爱娜扎方回应

突发！前绿军湖人双冠成员朗多被捕涉嫌持枪与毒品两项罪名

陈雨菲：戴资颖成就了自己；很珍惜安洗莹这个对手

CIA曾警告乌克兰勿炸＂北溪＂？俄方表示乌是替罪羊

美陆军部长抵达阿联酋首都与俄“秘密会谈”

趋势！考核升级，全国多地探索从严管理新机制

欧洲多国：美国赶紧“还钱”

最后一搏！沙特2亿镑正式报价萨拉赫，已抵英国谈判，盼3天内敲定

诺贝尔奖得主：镰田大地离队我会心碎，他若续约我会把奖牌送他

米莱宣布不加入金砖国家被批＂最愚蠢的变卦＂

32岁杨紫又“变脸”，皮肤紧致一脸高原红，重回“锦觅”颜值巅峰

微软豪掷79亿美元投资阿联酋AI企业G42，加速中东AI设施建设

40岁女人要优雅这些发型大方利落

“乔治·华盛顿”号航母进入南海 “尼米兹”号航母同日离开

白百何好友下场了！揭露争奖细节，放话大不了鱼死网破电影不上了

什么？！你告诉我佘诗曼已经50岁了

洪都拉斯总统访华第二天正式申请加入新开发银行

同赛季获得欧冠和世界杯冠军最佳阵容：拜仁7人，小蜘蛛在列

马斯克的X（推特）解雇了八成从事信任与安全工作的工程师

多家银行挂牌信用卡不良资产

最高降7万元！特斯拉降价潮蔓延，S/X现车优惠，下一个是谁？

真爱大牌返场|| 一上线就被抢空的牌子，这次居然100+就能拥有

詹姆斯经纪人旗下球员三人首日席卷3.9亿美元！范弗里特3年1.3亿

以军称开始重新执行加沙停火协议