楼主: nsjwzx2022
303 0

[经管数据集] FinReflectKG 金融知识图谱数据集 [推广有奖]

  • 1关注
  • 4粉丝

已卖:840份资源

院士

89%

还不是VIP/贵宾

-

威望
10
论坛币
25904 个
通用积分
213.8755
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
15104 点
帖子
1131
精华
0
在线时间
223 小时
注册时间
2022-8-16
最后登录
2025-11-19

楼主
nsjwzx2022 发表于 2025-10-24 20:33:51 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
一、数据集核心背景:聚焦金融监管文件的结构化语义提取
FinReflectKG是由Domyn于2025年发布的金融领域大规模知识图谱数据集,其研究成果对应论文为「FinReflectKG: Agentic Construction and Evaluation of Financial Knowledge Graphs」。  

核心目标是解决“金融监管文件中结构化信息难提取”的行业痛点——从企业官方监管文件(如SEC 10-K报告)中挖掘并梳理语义关系,为金融知识图谱的构建、优化提供标准化数据支撑,推动金融AI领域的知识驱动型研究与应用发展。
wechat_2025-10-24_201312_483.png

二、核心数据基础:S&P 100公司SEC 10-K报告为源,含三元组与上下文
数据集以S&P 100指数成分公司的最新年度SEC 10-K报告为核心数据源(SEC 10-K为美国证监会要求企业提交的年度详细财务与运营报告,信息权威且全面),数据形态突出“结构化+上下文结合”:  
- 核心数据:包含大规模知识图谱三元组(triplets),直接呈现金融实体间的关联关系;  
- 辅助信息:为每个三元组配套完整文本上下文,源自10-K报告原文片段,便于追溯关系提取的原始依据,提升数据可信度。


三、数据核心构成:6大维度,覆盖金融知识图谱全需求
数据集通过6个关键维度构建完整数据体系,适配金融领域知识挖掘场景,具体如下:  
1. 实体(Entity):涵盖金融领域核心实体,如S&P 100公司主体、业务板块、高管、财务指标(营收、净利润)、关联企业等;  
2. 关系(Relationship):定义实体间的语义关联,如“公司-拥有-业务板块”“高管-任职于-公司”“企业-关联交易-合作方”等;  
3. 目标实体(Target):与核心实体存在直接关联的对应实体,是三元组中的“对象端”,如“苹果公司-收购-特斯拉”中的“特斯拉”;  
4. 时间戳:标注关系存续的起始与结束日期,适配金融时序分析(如“某高管任职期间2020.01-2024.12”);  
5. 上下文文本(Contextual Text):提取自10-K报告中支撑该关系的原文段落,如“根据2023年SEC 10-K报告第12页,公司于2023年3月收购XX子公司”;  
6. 文档元数据(Metadata):记录报告所属公司、报告年份、SEC备案编号、数据提取页码等基础信息,便于数据溯源与管理。


四、核心适用场景:覆盖金融AI研究与行业应用
- 学术研究场景:支撑金融领域的实体识别、关系抽取、知识图谱自动构建、金融时序关系分析等课题,为论文提供权威数据验证;  
- 行业应用场景:用于开发下游金融智能应用,如AI驱动的监管文件信息提取工具、金融风险关联分析系统、企业信用评估知识图谱平台等。


五、权威获取途径
优先通过学术数据平台(如IEEE DataPort、Figshare) 搜索“FinReflectKG”下载,或访问论文「FinReflectKG: Agentic Construction and Evaluation of Financial Knowledge Graphs」的附属链接获取;下载包包含三元组数据文件、上下文文本库、文档元数据表格及数据使用说明,支持CSV、JSON-LD等通用格式,可直接导入知识图谱工具(如Neo4j)或AI模型训练框架。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:金融知识 LEC Fin ect Ref FinReflectKG 金融知识图谱 数据集

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-6 01:23