关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19103人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

杨采钰当妈后首个生日,富豪老公高调晒照表白

柒佰娱 浏览 1484

何猷君为6岁儿子何广燊庆生,儿子神似赌王

王稱吃吃喝喝 浏览 875

小S母女合照!16岁许韶恩装扮成熟和妈妈像姐妹

侦探娱乐 浏览 13009

光伏普遍亏损!TCL中环业绩跳水,存货损失何时休?

星空财富bj 浏览 11286

亚马尔和网红参加节目时说皇马偷窃还抱怨,皮克表示同意

懂球帝 浏览 869

广东晋级决赛杜锋谈辽粤大战:广东后场接过接力棒,传承篮球使命

篮球资讯达人 浏览 652

委总统要求保留军权 遭特朗普拒绝

新华社 浏览 258

桑德兰总监:迪亚洛不会再次为我们效力了,他应该在一级联赛踢球

直播吧 浏览 15418

加速虹吸,东方之珠的货币抽水机……

杨国英观察 浏览 11240

席琳·迪翁姐姐称其病情恶化 已无法控制自己肌肉

维音帝 浏览 13138

挂着周星驰的大名,《金猪玉叶》是潜力股,还是“杀猪盘”

最爱酷影视 浏览 10790

钟嘉欣一家越南度假!父母长相曝光,果然中基因彩票,两女也很美

文艺圈娱乐号 浏览 12559

伊姐周六热推:电视剧《即刻上场》;电视剧《暗影侦探》......

伊周潮流 浏览 275

王思聪熊猫互娱破产拍卖3100万,溢价率高达991%

趣看热点 浏览 26309

王凯深夜在酒吧玩乐喝到烂醉 身旁有三位年轻美女

盖饭娱乐官方号 浏览 19618

亚洲颜值天花板,居然合体了

独立鱼 浏览 935

法甲:马赛2比1客胜斯特拉斯堡

体坛周报 浏览 1446

媒体:守卫巴赫穆特的乌军危在旦夕 结局很难预料

经济观察报 浏览 97003

欧盟红海护航行动将于2月19日启动

央视新闻客户端 浏览 12540

慈禧有4大怪癖前面3个让人傻眼最后1个”要人命”

趣看热点 浏览 26267

马朝旭:台湾问题是中美关系中最具爆炸性的问题

环球网资讯 浏览 11121
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1