关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12527人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

CIA曾警告乌克兰勿炸"北溪"?俄方表示乌是替罪羊

环球网资讯 浏览 16070

美陆军部长抵达阿联酋首都 与俄“秘密会谈”

环球网资讯 浏览 393

趋势!考核升级,全国多地探索从严管理新机制

识局 浏览 815

欧洲多国:美国赶紧“还钱”

第一财经资讯 浏览 709

最后一搏!沙特2亿镑正式报价萨拉赫,已抵英国谈判,盼3天内敲定

我爱英超 浏览 14426

诺贝尔奖得主:镰田大地离队我会心碎,他若续约我会把奖牌送他

直播吧 浏览 19135

米莱宣布不加入金砖国家 被批"最愚蠢的变卦"

长安街知事 浏览 13023

32岁杨紫又“变脸”,皮肤紧致一脸高原红,重回“锦觅”颜值巅峰

温柔娱公子 浏览 1614

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 753

40岁女人要优雅 这些发型大方利落

成铭聊发型 浏览 16829

“乔治·华盛顿”号航母进入南海 “尼米兹”号航母同日离开

环球网资讯 浏览 408

白百何好友下场了!揭露争奖细节,放话大不了鱼死网破电影不上了

萌神木木 浏览 712

什么?!你告诉我佘诗曼已经50岁了

时尚COSMO 浏览 567

洪都拉斯总统访华第二天 正式申请加入新开发银行

界面新闻 浏览 90194

同赛季获得欧冠和世界杯冠军最佳阵容:拜仁7人,小蜘蛛在列

直播吧 浏览 16294

马斯克的X(推特)解雇了八成从事信任与安全工作的工程师

IT之家 浏览 12723

多家银行挂牌信用卡不良资产

中国基金报 浏览 415

最高降7万元!特斯拉降价潮蔓延,S/X现车优惠,下一个是谁?

澎湃新闻 浏览 14069

真爱大牌返场|| 一上线就被抢空的牌子,这次居然100+就能拥有

黎贝卡的异想世界 浏览 716

詹姆斯经纪人旗下球员三人首日席卷3.9亿美元!范弗里特3年1.3亿

Emily说个球 浏览 15336

以军称开始重新执行加沙停火协议

上观新闻 浏览 762
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1