楼主: Lyon0898
125 0

Extract-0 文档信息提取数据集 [推广有奖]

  • 0关注
  • 7粉丝

已卖:4891份资源

院士

39%

还不是VIP/贵宾

-

威望
0
论坛币
145064 个
通用积分
15191.6772
学术水平
35 点
热心指数
37 点
信用等级
35 点
经验
45913 点
帖子
1826
精华
0
在线时间
432 小时
注册时间
2022-3-14
最后登录
2025-11-30

楼主
Lyon0898 在职认证  发表于 2025-10-30 11:12:24 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

Extract-0 由 Inteli 于 2025 年发布的一个专为文档信息抽取任务设计的高质量训练与评测数据集,相关论文成果为「Extract-0: A Specialized Language Model for Document Information Extraction」,旨在支持小规模参数模型在复杂抽取任务中的性能优化研究。

该数据集共包含 280,128 条文档抽取示例,源自 34,761 个文档块(text chunk),每个样本平均长度约为 532–1900 个 token,覆盖多种数据结构类型(如对象、数组、字符串、日期与数值)。数据来自 arXiv 学术论文、 PubMed Central 医学文献数据库、维基百科条目以及 FDA(美国食品药品监督管理局)数据库的文本数据。每个样本均由原始文档片段与其对应的基于模式(schema-based)抽取任务 及结构化输出组成,从而在多领域、多格式文档中提供统一的抽取训练标准。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:extract extra xtra ext ACT

Extract-0.rar
下载链接: https://bbs.pinggu.org/a-8583446.html

1.19 KB

需要: 101 个论坛币  [购买]

磁力链接,55.5M

本附件包括:

  • Extract-0.torrent

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-5 17:54