当前位置: 首页 > 新闻动态 > 科技资讯

DeepSeek 团队发布最新开源模型 DeepSeek-OCR

作者:聖光之護 浏览: 发布日期:2025-10-20
[导读]:DeepSeek-AI团队近日发布了题为《DeepSeek-OCR:ContextsOpticalCompression》的研究论文,提出一种通过视觉模态实现长文本上下文压缩的创新方法。根据HuggingFace页面信息,该模型参数规模为3B。开源地址:https://huggingface.co/deepseek-ai/DeepSeek-OCRhttps://github.com/deepseek-ai/DeepSeek-OCR据官方介绍,此次发布的DeepSeek-OCR包含两个核心

deepseek-ai 团队近日发布了题为《deepseek-ocr:contexts optical compression》的研究论文,提出一种通过视觉模态实现长文本上下文压缩的创新方法。根据 hugging face 页面信息,该模型参数规模为 3b。

开源地址:https://www./link/32ce0ec3ee6f3951004c8ebb7511ffc1https://www./link/b3f1ba764509b453d6cc48e0969e5cb7

据官方介绍,此次发布的 DeepSeek-OCR 包含两个核心组件:专用编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。其中,DeepEncoder 针对高分辨率输入进行了优化设计,在确保低计算激活的同时实现高效压缩,有效将视觉 token 数量控制在合理范围内。

实验结果表明,当文本 token 数量不超过视觉 token 的 10 倍(即压缩比低于 10×)时,模型 OCR 准确率可达 97%;即使压缩比提升至 20×,准确率仍能维持在约 60% 的水平,展现出其在历史文档处理、长上下文压缩以及大语言模型记忆机制探索方面的广阔应用前景。同时,DeepSeek-OCR 具备出色的实用价值。

在 OmniDocBench 基准测试中,DeepSeek-OCR 仅用 100 个视觉 token 就超越了 GOT-OCR2.0(每页使用 256 个 token),而当视觉 token 不足 800 时,性能已优于 MinerU2.0(平均每页消耗超过 6000 个 token)。

在实际部署场景中,DeepSeek-OCR 可在单张 A100-40G 显卡上每日生成逾 20 万页高质量训练数据,适用于大规模视觉语言模型或大语言模型的训练需求。

源码地址:点击下载

免责声明:转载请注明出处:http://www.sczxchw.cn/news/77138.html

扫一扫高效沟通

多一份参考总有益处

免费领取网站策划SEO优化策划方案

请填写下方表单,我们会尽快与您联系
感谢您的咨询,我们会尽快给您回复!