人大经济论坛 › 论坛 › 数据科学与人工智能 › 人工智能 › 机器学习 › olmOCR-mix-1025 文档识别数据集

发帖

楼主: Lyon0898

124 0

olmOCR-mix-1025 文档识别数据集 [推广有奖]

0关注
7粉丝

已卖：4910份资源

院士

45%

还不是VIP/贵宾

威望: 0 级
论坛币: 146451 个
通用积分: 15193.5847
学术水平: 55 点
热心指数: 57 点
信用等级: 55 点
经验: 46563 点
帖子: 1891
精华: 0
在线时间: 443 小时
注册时间: 2022-3-14
最后登录: 2026-1-30

楼主

Lyon0898

发表于 2025-12-29 17:44:36 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

olmOCR-mix-1025 是由 Allen Institute for AI 于 2025 年发布的一个大规模、高质量 PDF 文档 OCR 数据集，相关论文成果为「olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models」，旨在支持光学字符识别（OCR）模型、文档理解模型以及多模态大模型的训练、微调与评估。

该数据集共包含约 270,250 页 PDF 文档内容，其中训练集 267,962 页、评估集 2,288 页，覆盖学术论文、档案文献、书籍扫描文本及历史手稿等多样文档类型。各子集均以英语为主，比例整体在 91%–99% 之间，并包含少量西班牙语、法语、德语、意大利语、拉丁语、印尼语等文献。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：mix OCR MOC 数据集 Unlocking

olmOCR-mix-1025.rar
下载链接: https://bbs.pinggu.org/a-8710742.html

718.49 KB

需要: 401 个论坛币 [购买]

磁力链接，71.74G

返回列表

发帖

本版微信群

扫码
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

olmOCR-mix-1025 文档识别数据集 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

浏览过的帖子

浏览过的版块

本版微信群

olmOCR-mix-1025 文档识别数据集 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群