FinReflectKG是由Domyn于2025年发布的金融领域大规模知识图谱数据集,其研究成果对应论文为「FinReflectKG: Agentic Construction and Evaluation of Financial Knowledge Graphs」。
核心目标是解决“金融监管文件中结构化信息难提取”的行业痛点——从企业官方监管文件(如SEC 10-K报告)中挖掘并梳理语义关系,为金融知识图谱的构建、优化提供标准化数据支撑,推动金融AI领域的知识驱动型研究与应用发展。
二、核心数据基础:S&P 100公司SEC 10-K报告为源,含三元组与上下文
数据集以S&P 100指数成分公司的最新年度SEC 10-K报告为核心数据源(SEC 10-K为美国证监会要求企业提交的年度详细财务与运营报告,信息权威且全面),数据形态突出“结构化+上下文结合”:
- 核心数据:包含大规模知识图谱三元组(triplets),直接呈现金融实体间的关联关系;
- 辅助信息:为每个三元组配套完整文本上下文,源自10-K报告原文片段,便于追溯关系提取的原始依据,提升数据可信度。
三、数据核心构成:6大维度,覆盖金融知识图谱全需求
数据集通过6个关键维度构建完整数据体系,适配金融领域知识挖掘场景,具体如下:
1. 实体(Entity):涵盖金融领域核心实体,如S&P 100公司主体、业务板块、高管、财务指标(营收、净利润)、关联企业等;
2. 关系(Relationship):定义实体间的语义关联,如“公司-拥有-业务板块”“高管-任职于-公司”“企业-关联交易-合作方”等;
3. 目标实体(Target):与核心实体存在直接关联的对应实体,是三元组中的“对象端”,如“苹果公司-收购-特斯拉”中的“特斯拉”;
4. 时间戳:标注关系存续的起始与结束日期,适配金融时序分析(如“某高管任职期间2020.01-2024.12”);
5. 上下文文本(Contextual Text):提取自10-K报告中支撑该关系的原文段落,如“根据2023年SEC 10-K报告第12页,公司于2023年3月收购XX子公司”;
6. 文档元数据(Metadata):记录报告所属公司、报告年份、SEC备案编号、数据提取页码等基础信息,便于数据溯源与管理。
四、核心适用场景:覆盖金融AI研究与行业应用
- 学术研究场景:支撑金融领域的实体识别、关系抽取、知识图谱自动构建、金融时序关系分析等课题,为论文提供权威数据验证;
- 行业应用场景:用于开发下游金融智能应用,如AI驱动的监管文件信息提取工具、金融风险关联分析系统、企业信用评估知识图谱平台等。
五、权威获取途径
优先通过学术数据平台(如IEEE DataPort、Figshare) 搜索“FinReflectKG”下载,或访问论文「FinReflectKG: Agentic Construction and Evaluation of Financial Knowledge Graphs」的附属链接获取;下载包包含三元组数据文件、上下文文本库、文档元数据表格及数据使用说明,支持CSV、JSON-LD等通用格式,可直接导入知识图谱工具(如Neo4j)或AI模型训练框架。


雷达卡


京公网安备 11010802022788号







