关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19102人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

欧盟对谷歌提起反垄断诉讼 考虑分拆其广告技术业务

财联社 浏览 16120

自动驾驶技术未成熟,丰田巴士撞倒行人,残奥会出意外

撩车视界 浏览 20204

友宝在线的青年危机

斑马消费 浏览 14581

不止造车 奥迪在北京做了一件关乎自然未来的事

网易汽车 浏览 1007

媒体:美军武器靠拆零件续命 对美国或是一种致命伤

新民周刊 浏览 6504

大量新势力竞逐 2024年高端MPV市场能否迎来爆发?

车市红点 浏览 12459

后排配娱乐屏/还有拖挂资质 理想i6将于9月26日上市

网易汽车 浏览 1716

沉默的荣耀大结局前瞻,最惨角色出炉,果然不幸的人各有各的不幸

娱乐圈笔娱君 浏览 1019

范戴克:我们不想在主场取得平局,有势头后就应该全力以赴

懂球帝 浏览 953

厦大EMBA,四维一体、育见未来

经理人杂志 浏览 887

乌国家科学院人口研究所:乌人口规模或将下降三成

红星新闻 浏览 90

亚马逊据悉将淘汰数十个自有品牌,旨在抵御反垄断审查并提振利润

界面新闻 浏览 14569

林高远再输宿敌!张本智和携搭档3-0横扫,晋级男双半决赛!

乒谈 浏览 12781

福建舰最新画面披露 台湾媒体直呼“震撼”

环球网资讯 浏览 12556

宗馥莉“被带走”?谣言背后,一个内讧的娃哈哈

大猫财经Pro 浏览 1075

内容“新物种”,全球“闪电战”|2025中国短剧出海报告

霞光社 浏览 1506

拼多多,十年启示录

正和岛 浏览 1066

ST华铁连续四年财报不真实拟被罚

雷达财经 浏览 12958

华为相关人士:华为MetaERP管理系统仅供内部使用 “进军ERP市场”系误读

上海证券报 浏览 19198

芯片巨头又有大动作

中国基金报 浏览 10763

300万以内无敌手 莲花首款插混SUV定名For Me

网易汽车 浏览 93
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1