olmOCR-mix-1025 是由 Allen Institute for AI 于 2025 年发布的一个大规模、高质量 PDF 文档 OCR 数据集,相关论文成果为「olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models」,旨在支持光学字符识别(OCR)模型、文档理解模型以及多模态大模型的训练、微调与评估。
该数据集共包含约 270,250 页 PDF 文档内容,其中训练集 267,962 页、评估集 2,288 页,覆盖学术论文、档案文献、书籍扫描文本及历史手稿等多样文档类型。各子集均以英语为主,比例整体在 91%–99% 之间,并包含少量西班牙语、法语、德语、意大利语、拉丁语、印尼语等文献。


雷达卡




京公网安备 11010802022788号







