DeepSeek 团队发布最新开源模型 DeepSeek-OCR_科技资讯

DeepSeek 团队发布最新开源模型 DeepSeek-OCR

作者：聖光之護浏览：发布日期：2025-10-20

[导读]:DeepSeek-AI团队近日发布了题为《DeepSeek-OCR：ContextsOpticalCompression》的研究论文，提出一种通过视觉模态实现长文本上下文压缩的创新方法。根据HuggingFace页面信息，该模型参数规模为3B。开源地址：https://huggingface.co/deepseek-ai/DeepSeek-OCRhttps://github.com/deepseek-ai/DeepSeek-OCR据官方介绍，此次发布的DeepSeek-OCR包含两个核心

deepseek-ai 团队近日发布了题为《deepseek-ocr：contexts optical compression》的研究论文，提出一种通过视觉模态实现长文本上下文压缩的创新方法。根据 hugging face 页面信息，该模型参数规模为 3b。

开源地址：https://www./link/32ce0ec3ee6f3951004c8ebb7511ffc1https://www./link/b3f1ba764509b453d6cc48e0969e5cb7

据官方介绍，此次发布的 DeepSeek-OCR 包含两个核心组件：专用编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。其中，DeepEncoder 针对高分辨率输入进行了优化设计，在确保低计算激活的同时实现高效压缩，有效将视觉 token 数量控制在合理范围内。

实验结果表明，当文本 token 数量不超过视觉 token 的 10 倍（即压缩比低于 10×）时，模型 OCR 准确率可达 97%；即使压缩比提升至 20×，准确率仍能维持在约 60% 的水平，展现出其在历史文档处理、长上下文压缩以及大语言模型记忆机制探索方面的广阔应用前景。同时，DeepSeek-OCR 具备出色的实用价值。

在 OmniDocBench 基准测试中，DeepSeek-OCR 仅用 100 个视觉 token 就超越了 GOT-OCR2.0（每页使用 256 个 token），而当视觉 token 不足 800 时，性能已优于 MinerU2.0（平均每页消耗超过 6000 个 token）。

在实际部署场景中，DeepSeek-OCR 可在单张 A100-40G 显卡上每日生成逾 20 万页高质量训练数据，适用于大规模视觉语言模型或大语言模型的训练需求。

源码地址：点击下载

REDMI K90 Pro Max搭载7560mAh电池：1

Doris Summit 2025 报名启动！议程全面公开，

免责声明：转载请注明出处：http://www.sczxchw.cn/news/77138.html

新闻动态

热门推荐

微博Q3净收入4.42亿美元最新月活跃用户数达5.78亿

马斯克：特斯拉Cybertruck是“外星科技”

哪些城市爱买特斯拉：杭州、上海、北京包揽前三名

年产千万台！特斯拉得州工厂将扩建造Optimus人形机器人

最新文章

DeepSeek 团队发布最新开源模型 DeepSeek-OCR

猜你喜欢

新闻动态

热门推荐

微博Q3净收入4.42亿美元 最新月活跃用户数达5.78亿

马斯克：特斯拉Cybertruck是“外星科技”

哪些城市爱买特斯拉：杭州、上海、北京包揽前三名

年产千万台！特斯拉得州工厂将扩建造Optimus人形机器人

最新文章

DeepSeek 团队发布最新开源模型 DeepSeek-OCR

猜你喜欢

微博Q3净收入4.42亿美元最新月活跃用户数达5.78亿