关闭广告

10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

澎湃新闻4781人阅读

DeepSeek开源新模型:用视觉模式实现上下文压缩。

10月20日,DeepSeek宣布开源最新大模型DeepSeek-OCR。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理。

通俗而言,这是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

据公布的论文名单显示,该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,但这三位核心作者都颇为低调,其中一作作者Haoran Wei曾在阶跃星辰工作过,曾主导开发旨在实现“第二代 OCR”的GOT-OCR2.0系统。


DeepSeek-OCR的架构分为两部分。一是DeepEnco

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

浙江男子全款买车合同签完提不了车 4S店:经理进去了

FM93浙江交通之声 浏览 8462

国资券商整合收官!新国盛证券承接所有业务,原主体完成工商注销

21金融圈 浏览 3302

丰田"世极"正式独立 全新概念车剑指劳斯莱斯

网易汽车 浏览 4431

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

静儿时尚达人 浏览 3282

海报荐读|AI产品情绪价值开始“分化”;无障碍出租车为何预约难

上观新闻 浏览 3564

「新消费观察」折扣店洗牌开始?好特卖多地闭店:“高成本选址”与“低价模式”矛盾凸显

华夏时报 浏览 3853

审美倒退30年?舒淇却被全网夸爆了

Yuki女人故事 浏览 1680

ELLE风尚盛典秒变菜市场,有人摔倒、有人调侃内涵,状况百出

Yuki女人故事 浏览 3593

美以对伊朗动武后 欧洲主要国家的谨慎态度引发美不满

澎湃新闻 浏览 43440

燕翔:A股上市公司增减持特征与近况

首席经济学家论坛 浏览 4517

高云翔深夜在天津街头淋雪,边走边笑

观察鉴娱 浏览 3529

向佐承认向太曾破坏他的恋情:她说了我就认

韩小娱 浏览 111

当你的代码测试出问题时,人工智能能像专业程序员一样修复吗?

科技行者 浏览 3172

贵州本地人都不知道的动物园意外走红 仅一位老人看守

封面新闻 浏览 12752

奎罗斯:有球员不喜欢补水暂停,但足球离不开商业和赞助

懂球帝 浏览 106

日方鼓吹拥核 国防部表态

环球网资讯 浏览 3630

何以“破卷”?光伏经历至暗时刻!

飞鲸投研 浏览 3830

记者:阿布拉汗应该是河南第一签,阿奇姆彭难留

懂球帝 浏览 3607

这一天:杨幂蚂蚁腰无敌了,赵丽颖生图抗打,陈坤咋长这样了

娱乐圈笔娱君 浏览 3388

快看!!这个女演员近日暴瘦!!哦,知道了……

时尚COSMO 浏览 1337

靳东这波转型,真是让人佩服得五体投地。

小光侃娱乐 浏览 5179
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1