楼主: 时光永痕
2169 0

[数据挖掘新闻] 知识科学家的崛起 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

1%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2022-4-26 14:00:51 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
知识图谱(KG)的管理和治理这门还很年轻的学科在 具体项目经验的基础上逐渐开始巩固。人们已经清楚地认识到,基本方法是多学科的,不能简单地被现有的、通常是数据和信息管理中的经典角色和技能所涵盖。相反,需要新的角色,让“知识科学家”处于中心位置,因为他或她能够将“数据工程师”和“知识工程师”这两个典型的、有时相互竞争的角色结合在一起'。


企业知识图谱 (EKG) 是什么以及它是如何创建的,在当前的讨论中(至少)有两个不同的答案。这两种观点通常被理解为相互排斥、互不相容;然而,这两种语义数据建模方法应该在知识图谱的具体开发中结合起来。对于从业者和潜在用户来说,这些假定的对立面自然会引起混淆,因为如果以简化的形式呈现,这两种方法通常被理解为彼此的替代方案。简而言之,这里有两种观点:

方法 1——“知识”原则:知识图是知识领域的模型,由相应的主题专家 (SME) 在知识工程师(例如分类学家或本体论)的支持下策划,从而可以使用部分自动化的方法. 知识域可以重叠并且在大多数情况下仅代表整个企业的一个子域。知识建模者倾向于创建特定的、富有表现力的和语义丰富的知识模型,但仅限于有限的企业范围。这种方法主要关注整个知识图生命周期内的专家循环。

方法 2 - 原则“数据”:知识图是现有数据源的基于图的表示,由数据工程师在自动转换、丰富和验证步骤的帮助下创建。本体和规则在这个过程中起着至关重要的作用,而数据沿袭是涉及的最复杂的问题之一。在这种方法中,数据工程师专注于知识图谱生命周期的自动化循环,旨在重用和集成尽可能多的数据源以创建数据图。此方法中涉及的本体和分类法仅提供自动化数据转换和集成所需的表达水平。

借助“数据”原则,通常异构数据景观的基于图形的表示移动到中心,以便它可以推出敏捷的数据集成方法(例如,“客户 360”)、数据质量管理和数据的扩展可能性分析。

另一方面,“知识”原则在更大程度上引入了将现有数据与附加知识联系和丰富的想法,作为一种手段,例如,支持知识发现、自动推理和深入分析。复杂的数据库。

那么,这两种方法是相互排斥的吗?两种场景的主角和支持者从两个不同的角度看待相同的企业知识。这有时看起来好像他们在追求不同的目标,尤其是当参与者的心态可能有很大差异时。

“知识工程师”的观点:方法 1 涉及知识建模师/工程师、计算机语言学家和部分数据科学家,他们对数据有一个整体的看法,即他们希望能够链接数据并将其带入新的环境,以便能够提供扩展的可能性数据分析、知识检索或推荐系统。这是在没有“容器思维”的情况下完成的,无论信息或事实是否被锁定在关系数据库或专有文档结构中,它们都应该被提取并使其(重)可用。方法 1 的支持者通常认为数据质量——尤其是所谓的“结构化数据”——对于全自动方法来说已经足够高了,而这在现实中很少见。因此,

“数据工程师”的观点: 方法二主要聘请数据工程师来解决企业数据管理中的各种问题,例如数据质量不足、数据集成繁琐(关键词:数据孤岛)等。这通常独立于具体的业务用例来完成。由于僵化的数据库模式造成的限制是知识图谱应该解决的核心问题。数据工程师将本体视为 EKG 的核心构建块,有时本体甚至等同于 KG。实体和非结构化数据(例如,PDF 文档)之间的分类关系经常被忽略,并且在数据工程师的 KG 设计中找不到或仅处于次要位置,其中存在可能不必要地放弃现有数据源的危险。因此,方法 2 创建了一个虚拟数据图,以虚拟 1:1 的比例镜像现有数据。

显然,方法和思维方式都有充分的理由使用图技术,并且它们各自都涉及不同的风险,即在开发成熟的企业知识图谱的过程结束时产生重大差距并依赖低效的方法。因此,出路是将两个方向的思想联系起来,并使各自的支持者摆脱孤立。如何做到这一点?知识工程师、数据工程师和他们的目标如何联系起来?

“知识科学家”的观点: 知识科学家将知识工程师更全面、更联系的观点与数据工程师更务实的观点相结合。他们与知识图交互,从中提取数据以训练新模型,并将他们的见解作为反馈提供给其他人使用。知识科学家与企业密切合作,了解他们的实际需求,这些需求通常以业务对象和有关他们的事实为中心。最终,这会导致产生所谓的360 度视图(例如,客户 360、产品 360 等)的更完整和以实体为中心的知识图视图。

方法 3——“实体”原则:知识图谱是一个多层、多维的实体网络,它为企业数据引入了一种全新的视角:以实体为中心的视图。KG 的每一层都代表一个上下文,在该上下文中,由一个实体表示的业务对象可以出现。每个维度都代表一种查看出现在特定数据源中的实体的方式,无论是结构化的、半结构化的还是非结构化的。知识图谱包含关于实体的事实,这些事实可以非常具体但也可以抽象,并以实例数据、分类法和本体的形式表示。在这种方法中,知识和数据的观点得到了整合,并包含了业务用户的观点。

结论:虽然一些关于链接现有数据(“数据图”)的工作主要集中在语义知识模型(“语义图”)的开发上,但知识图的第三种视角,包括用户视角变得越来越重要: “实体图”。重点是所有相关的业务对象,包括用户本身,而这些对象又应该与其他两层的所有事实相关联。这种清晰的以实体为中心的知识图视图最终引入了业务视图。所有与各自业务对象相关的问题都由“知识科学家”制定,部分借助机器学习方法回答,部分由中小企业回答,然后返回知识图谱。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:科学家 数据工程师 结构化数据 数据科学家 计算机语言

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-9 08:05