楼主: Lyon0898
54 0

olmOCR-mix-1025 文档识别数据集 [推广有奖]

  • 0关注
  • 7粉丝

已卖:4898份资源

院士

40%

还不是VIP/贵宾

-

威望
0
论坛币
145671 个
通用积分
15192.3900
学术水平
55 点
热心指数
57 点
信用等级
55 点
经验
46043 点
帖子
1839
精华
0
在线时间
434 小时
注册时间
2022-3-14
最后登录
2025-12-29

楼主
Lyon0898 在职认证  发表于 昨天 17:44 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

olmOCR-mix-1025 是由 Allen Institute for AI 于 2025 年发布的一个大规模、高质量 PDF 文档 OCR 数据集,相关论文成果为「olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models」,旨在支持光学字符识别(OCR)模型、文档理解模型以及多模态大模型的训练、微调与评估。

该数据集共包含约 270,250 页 PDF 文档内容,其中训练集 267,962 页、评估集 2,288 页,覆盖学术论文、档案文献、书籍扫描文本及历史手稿等多样文档类型。各子集均以英语为主,比例整体在 91%–99% 之间,并包含少量西班牙语、法语、德语、意大利语、拉丁语、印尼语等文献。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:mix OCR MOC 数据集 Unlocking

olmOCR-mix-1025.rar
下载链接: https://bbs.pinggu.org/a-8710742.html

718.49 KB

需要: 401 个论坛币  [购买]

磁力链接,71.74G

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-30 02:07