楼主: 张杰2026
522 1

知识图谱:技术成熟度飞速跃升,与产业互联结合更加紧密 [推广有奖]

  • 0关注
  • 0粉丝

硕士生

36%

还不是VIP/贵宾

-

威望
0
论坛币
21 个
通用积分
8.9956
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
2166 点
帖子
79
精华
0
在线时间
58 小时
注册时间
2014-3-26
最后登录
2022-11-11

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

国双数据科学团队刘燕

对比 2020 和 2019 年 Gartner 发布的人工智能领域的技术“成熟度曲线”(Hype Cycle),在短短 1 年时间,知识图谱的成熟度由创新触发阶段一跃达到预期膨胀高峰阶段且非常接近最高点。

知识图谱逐渐成为人工智能应用的强大助力。

曲线表示,知识图谱的发展还需要 5 - 10 年时间才能到达成熟的阶段,知识图谱依然有很大的发展空间。

企鹅群:189696007

本文将从知识抽取、知识融合、知识推理的角度探索过去一年知识图谱在自动构建领域的技术突破,并结合图机器学习、图数据库探讨相关领域的技术发展。

在应用上,知识图谱在 2020 年与产业互联的结合更加紧密,除了在数据治理、搜索与推荐、问答等通用领域有所突破之外,在智能生产、智慧城市、智能管理、智能运维等众多领域,以及工业、金融、司法、公安、医疗、教育等众多行业也都有进一步的场景化落地的突破。

一、 重要的技术发展知识图谱构建

2020 年,利用自然语言处理、机器学习等技术从多源异构的数据资源中自动构建知识图谱的技术取得长足进展。

主要涉及到两种方法:一种是基于语言规则的方法,另一种是基于统计分析的机器学习方法。自动构建的过程中,如果数据是结构化的 ( 例如图表数据 ),已知属性名称、属性间的层次结构等,构建知识图谱相对较为容易。

如果缺乏以上信息,则只能通过文本信息等非结构化数据中提炼知识构建知识图谱,技术上将面临很多挑战。

下面,我们从知识抽取、知识融合、知识推理这三方面来说明。

1. 知识抽取

2020 年以来,更多知识抽取的研究工作被用来支撑更加复杂的应用场景。多学科多领域交叉研究成为一个新的特点。小样本学习在业界逐渐为人所关注。整体来看呈现以下趋势:

(1)多模态(Multimodal)。

多模态并非 2020 年提出的新概念,但是 2020 年对于多模态的研究热度较往年相比提升了很多。

目前 NLP 领域多模态研究主要集中在跨语言和视觉的模态研究上,且多模态知识图谱也逐步成为一个新的趋势。多模态研究包括多模态信息对齐,多模态文本生成,多模态推理,多模态表示,基于语言的视觉导航等。

多模态研究的基础是模态融合和语义对齐,现在有很多工作研究从图片或文本中提取出结构化的知识,进行语义对齐。

目前多模态的相关研究还处于起步阶段,什么场景使用以及如何使用还需要进一步探索

(2)任务复杂化(Task complexity)。

2020 年以来,知识抽取任务更贴合实际应用场景,复杂化的知识抽取任务向我们提出了新的挑战。

关系抽取任务已不满足于抽取封闭的三元组关系,而更贴合实际情况,出现了很多复杂关系和开放关系的抽取任务。例如,2020 LIC 比赛中关系抽取赛题相比 2019 年增加了复杂关系抽取;部分关系抽取工作从句子级别向篇章级别和多文本抽取过渡;很多研究开始探索如何利用深度学习模型自动发现实体间的新型关系,实现开放关系抽取等。

对于常规的信息抽取任务,已经逐步往语义理解上转变,并基于此衍生出很多阅读理解和知识推理的任务 。

在实体融合和指代消解等任务上的研究,场景也更为复杂,逐步向深层次语义理解和知识推理演变。

(3)零次学习(zero-shot learning)和小样本学习(few-shot learning)。

Zero-shot 和 few-shot 一直是知识抽取研究的难点,2020 年对于 zero-shot 和 few-shot 有了更多深入的研究,包括利用集成学习、多任务学习、预训练模型、知识表示等方法结合深度学习模型进行的相关探索。

预训练模型的发展使得很多知识抽取工作的瓶颈下降,但是相对来说,领域迁移和冷启动问题还是目前的难点。近几年出现了很多结合知识图谱进行知识表征,添加多模态信息,结合多领域进行多任务学习等融合多源知识的相关方法和研究,并取得了一定进展。

除此之外,多学科多领域交叉也是 NLP 和知识图谱领域在 2020 年比较大的特点。例如知识表示,包括文本表示、图表示、多模态表示之间的交叉和结合研究。

同时在知识抽取的多种任务中,都有多领域多学科结合相互指导优化的发展趋势,不同任务,不同学科之间的边界变得越来越模糊 。

总的来说,2020 年是知识抽取研究飞速发展的一年,科学研究者们已经不满足于一些简单的知识抽取任务的实现,开始探索更贴合实际的应用场景。对于任务的探索边界也越来越不明显,并出现了很多结合多源异构信息的相关探索。除此之外,多模态和知识图谱表征仍然有很大发展空间。

2.知识融合

知识融合方面一直以来都面临两个重要的技术挑战,一是数据规模的挑战,数据量大,种类多样性,存储位置不同、结构不同;另一个是数据质量的挑战,数据命名模糊,格式不同,数据缺失,噪音问题严重。

这两个问题无论是以前,还是 2020 年度,一直都是知识融合方面面临的严峻挑战。

数据规模方面,行业算力的不断提升使实用系统可以有效处理更大规模的图谱数据。在多个知识图谱联合使用的知识融合方面,本年度 ACM SIGKDD 提出了 KGSF,通过互信息最大化,对齐不同图谱中的语义空间,实现多知识图谱的语义融合。这种方法使用多个知识图谱打通了不同类型信息的语义鸿沟,在会话推荐系统的任务上起到了很好效果,也为融入多个外部的知识图谱提供了一条可行之路。

数据质量方面,在处理不同知识图谱对齐问题中,本年度提出了一种不同知识图谱中语义相似的实体进行关联时的噪音问题的解决方法。在现有方法大多都是面向干净数据的前提下,带有噪音检测和基于噪音感知的实体融合方法探索出了一种鲁棒的实体对齐方式,鲁棒性的跨语言实体对齐模型,通过图神经网络建模知识图谱中的实体对,得到噪音感知的实体对齐模块,利用生成对抗网络来生成噪音实体对并训练一个噪音判别器,识别出干净的实体对。

3. 知识推理

知识推理方面,多种新颖观点在顶级会议上被提出,例如:图谱推理在图像视频描述生成领域的应用,以及垂直领域的推理任务等。

在常识问答方面,可以基于图的上下文表示学习和基于图的推理方法 ,利用不同结构的知识源进行常识问答。不针对于具体领域和具体任务,本年度还提出了一个 RNNLogic 的概率方法 ,该方法包括一个使用递归神经网络生成逻辑规则的规则生成器,和一个带有逻辑规则的推理预测器,并使用基于 EM 算法的优化,从学习逻辑规则的角度给出了一个知识图谱推理的有效方案。

另外也有基于知识图谱的向量嵌入技术,完全基于向量操作进行推理演算;基于 Neural Logic Programming 框架,在数值推理问题方面也向前迈进了一步。

图机器学习

图机器学习领域目前刚刚到达图论和机器学习的交叉点。包括图上深度学习的启发式应用到图模型范围等问题都在进行广泛和深入的研究。

同时,知识图谱与机器学习相结合的研究也逐渐增多,相关研究成果在顶级会议上的提交率有所增长:

1. 在图嵌入方向,学者提出了一种新的 KGE 框架自动实体类型表示(AutoETER)[21],通过将每个关系看作是两个实体类型之间的转换(translation)操作来学习每个实体的潜在类型嵌入,并利用关系感知映射机制来学习每个实体的潜在类型嵌入;

2.知识推理方向,学者提出了一种新的框架,用于嵌入学习和跨多个特定语言的 KG 进行集成知识迁移。该框架将所有 KG 嵌入到一个共享的嵌入空间中,在那里基于自学习捕获实体之间的关联。然后,进行集成推理,合并来自多个特定语言 KG 嵌入的预测结果;

3.知识图谱与推荐系统结合方向,学者首先算出图中各类型节点的嵌入,结合注意力机制,利用邻居节点为中心节点提供更丰富的信息,然后利用传统的“头结点+关系=目标节点”的方法训练最终的图嵌入表示,最后接入下游的推荐系统模型。此外,图神经网络 GNN 被广泛应用于图机器学习。前沿的关于图机器学习的研究对 GNN 有更扎实的理论理解。

图数据库

2020 年以来,为了满足强关联和网络型数据的存储、查询和大规模图分析的性能需求,图数据库在其底层数据结构的设计上也尽量贴合关系数据的搜索模式,减少磁盘的 I/O 操作时间。传统关系型数据库的 B+树数据结构在数据检索和随机数据读取上有优秀的性能,而对于关系数据的遍历则显得相形见绌了。

分布式图数据库在对图分割上有以点分割和以边分割 2 种方案。在 2020 年越来越多的新型分布式图数据库会选择以边分割的方案,甚至是把图节点的属性和边同样对待,统称为谓词 。相同的谓词会存在同一台或几台机器上。这样很多查询,特别是多跳查询可以集中在少量的机器上完成,大大减少数据传输带来的网络开销。新型的分布式图数据库在百亿数据量的规模下, 单点的多跳查询能做到毫秒级返回。

二、主要应用

知识图谱是把人类的知识和经验代码化的有效工具,赋予机器认知智能以构建智能体在不同应用场景中代替或帮助人类解决实际问题。

接下来,我们将从通用和垂直两个层面探讨其应用。

首先,知识图谱在通用领域的应用:

1. 数据治理

2020 年,知识图谱被逐渐应用在数据治理中。政务、金融、审计等行业均有尝试。

部分企业提出数据、管理、业务的三层图谱概念。也有企业从场景落地出发,提出“数据”与“知识”双驱动:即,从生产、经营、管理等实际业务场景出发,将业务、流程、指标中的知识构建成知识图谱。

一方面,应用知识图谱将业务场景与数据关联起来,让机器知道什么业务场景需要什么数据,这些数据必须达到怎样的标准和质量,进而帮助数据治理;另一方面,通过数据治理所形成的业务发现沉淀到知识图谱里,在数字化转型中释放价值。

这样一来,一些传统数据治理中的难题得到进一步解决:通过知识、模型以及图结构的应用,一些错误的、不一致的信息可以被发现、统一;基于业务规则定义,可识别潜在的数据关联关系,进一步补充信息。

知识图谱将业务数据、产业知识、通用常识、机理模型、决策网络、机器学习模型进行混合存储,实现知识和数据沉淀赋能智能应用。在业务场景的驱动下,应用知识图谱可以有效实现数据治理与业务治理的迭代闭环。

2. 搜索与推荐

随着知识图谱的深层应用,2020 年,搜索与推荐更加智能,并在消费领域之外的生产、管理等方向不断下沉。

在面向生产、管理等垂直业务领域,领域知识、事件图谱的应用提升了检索效率与质量。一些非结构化或半结构化数据应用较多的专业,如审计、医疗、金融、司法、各类型研究结构等,文书、文献、案例/判例、研究成果、专家经验被引入到领域知识图谱的构建中。通过对不同层次知识分析、加工、结构化处理,在常规检索之外,实现知识的钻取和深度挖掘。

在这个过程中,一些企业通过知识标注工具,将业务实体、属性和关联关系标记出来,把标记的实体和关系存入知识库,并把它们沉淀成自动知识抽取模型的训练语料;也有一些企业通过映射、连接及各类 D2R 操作,将结构化数据库的数据字典、表结构、关系及数据库内容转换为知识图谱的本体、业务实体、实体间关系组成的三元组,以便于人们从研究对象、研究主题、业务分类等多个维度检索出相关结果。

其次,知识图谱在垂直领域的应用:

1. 智慧生产

工业知识图谱是知识图谱的重点发展方向。今年人们对知识图谱在生产领域的探索贯穿了产品生产的各个环节:

(1) 仿真模拟:

以石油化工业领域的应用为例。考虑到石化产业具有易燃易爆、工艺复杂等特点,现实中有大量无法通过机理模型或模拟软件解释的现象。为方便生产线工人的日常作业,人们通过构建产业链知识图谱,在短时间内从众多影响因子的因果变化关系中进行生产操作前的模拟:如工人准备改变某可操作变量时,可通过图谱预测操作带来的变化;如工人试图达到某结果时,可通过图谱提前预判操作步骤 。

(2) 产品研发:

在知识图谱的支撑下可以围绕产品发展趋势为新产品市场定位提供决策知识;可以识别新产品在不同使用场景下的使用方法和使用要求,推送其他产品的应用案例;还可以提供已有的相似产品、相关技术、领域专家和信息化工具软件等信息 。

(3) 产品质量提升:

通过监控生产过程中的实时参数曲线构建核心部件的健康指数模型,在识别关键因素的基础上进行参数推荐,提升良品率。

(4) 生产预测:

在机理模型与经验模型融合的基础上,结合生产知识图谱实现图迭代计算,计算出某因子发生变化时整个关系网络达到稳定后各个产物节点的状态值,实现更准确的生产预测 [26]。

(5) 供应链风险管理及零部件选型:

可以汇集产品知识、物流知识、采购知识、制造知识、交通信息等等构建供应链及零部件图谱,将采购、物流、制造联系起来,通过语义网(关系网)实现供应链风险管理与零部件选型。

(6) 节能减排:

集成、分析物联网传感器和系统的信息,打通建筑物管理、居住舒适度调节、电源监控等数据孤岛,构建智能建筑领域的物联网知识图谱。降低开发者和工程师的工作量,实现最优化的智能建筑运营 。

(7) 设备故障预警与安全生产:

以石油领域为例,油田联合站承担原油处理、存储与外输任务,是一级防火、甲级防爆单位。通过设备知识图谱和决策知识图谱,一方面可以将设备的生产参数变化转换为状态变化和各种生产现象,模拟专家分析设备运行过程,对设备运行状态进行预测;此外,还能基于不同生产现象的变化在决策图谱中自动选择最优措施方案,生成决策建议,通知现场管理人员进行现场作业和处理。

2.智能营销

消费者、商品的图谱构建更加深入、完善。

(1) 消费者:

数据进一步打通。除用户基本信息、行为特征之外,兴趣、场景、需求等内容也逐渐丰富到消费者图谱内。用户价值模型、购买驱动因素模型等模型应用也扩展了图谱内容。

(2) 商品:

一些企业通过构建事件图谱、视频理解图谱强化对事件、场景的感知,尝试从文本到多媒体的跨越,丰富产品构建内容;在消费品领域,消费者对产品的别称、昵称、缩写等非常丰富,制约了图谱构建效率,还有一些企业在图融合领域不断探索,提升实体的自动化对齐效果。

(1) 自动撰文:

挖掘主竞品文章中对业务有价值的高频词语和短语,形成实体库;通过本体及实体的挖掘找到人群与需求、人群与场景的关系;挖掘属性和评价词语,与相关实体关联,形成实体的评价印象;解析句子的语法结构以及与本体、实体的关联,使机器撰写更接近人的行文习惯。

11月11— 15日

一、知识图谱概论

二、知识图谱应用

三、知识表示与知识建模

四、知识抽取与挖掘

五、知识融合

六、存储与检索

七、知识推理

八、语义搜索

九、知识问答


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:成熟度 Translation Programming Multimodal Complexity

沙发
dongfh00001 发表于 2022-11-19 10:14:40 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 16:04