楼主: 时光永痕
324 0

[数据挖掘新闻] 拥抱数据孤岛:语义搜索和分析创新 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

38%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
走遍任何大型组织,听到人们抱怨要找到合适的数据来完成他们的工作。在典型的组织中,数据位于多个位置,丢失在技术和功能边界之后。这些被称为“数据孤岛”的孤立系统通常出于良好的目的和原因而存在,例如帮助每个业务功能做好工作并满足法律要求。

但是,如果没有凝聚力和统一的数据视图,整个组织的明智决策就会变得困难,并且会出现效率低下的情况。数据量和速度的增加加剧了这种头痛。

公司倾向于通过三种方式解决这个问题: 维护一个由专业数据库组成的分布式网络;转移到集中式数据库;或逐渐过渡到联合系统。然后,许多经理直接寻求技术解决方案或聘请数据科学家来处理混乱的数据。

升级到集中式数据库似乎很诱人。埃里克·利特尔,首席执行官飞跃分析和首席数据官OSTHUS集团,在最近的一次 DATAVERSITY® 采访中总结了这种传统思维方式:

“我需要把我公司周围的所有数据都收集起来,并以某种方式将它们放入一个我将构建的大型主系统中。这意味着让我的数据跨越整个企业,甚至是那些来自 30 年前未使用的系统的数据,并以某种方式与世界各地成千上万的员工联系起来,他们的数据可能分散在文本文件的集合中或Excel工作表。最重要的是,在这个 30 岁的系统中知道这些列意味着什么的人可能已经死亡或退休,正在哥斯达黎加的双体船上巡航。”

对于拥有大量文件存储的公司,甚至可能是数据仓库或各种关系系统中的一些,重组数据看起来令人生畏,尤其是因为它通常涉及大量提取、转换和加载(ETL)。如今,组织希望将原始数据存储到集中的数据湖中。然而,巨大的成本和将数据合并到最新的闪亮技术中的长达一年多的项目可能会带来问题。

Torsten Osthus,首席执行官OSTHUS集团LeapAnalysis 的联合创始人在同一次采访中反映,“在 2000 年代中期,软件行业专注于系统集成和功能,而不是数据集成和将数据作为企业资产进行管理。” 但是这种方法遇到了人工智能的障碍,并且机器学习. 此外,正如 Osthus 所说,组织错过了将人们头脑中的上下文知识带入系统。

机器学习是对数据的饥渴和贪婪,以 PB 级的数据量级,以使其成功并“学习”。例如,Little 说,生命科学工作者和研究人员会看到“来自高通量筛选的大量图像文件,或者必须搜索蛋白质组学和基因组学数据”,例如为了更好地了解疾病的生物标志物,或者他们必须筛选各种“MRI”和扫描”从医生办公室。机器学习可以用来做一些事情增强分析,但是,正如 Little 所说,“您将无法在每个人都可以访问的中心位置对所有内容进行数据库化。”

即使存储了所有信息,也会产生法律后果。很少有人评论说,“出于法律原因,我们其中一个客户站点的某些数据不能离开德国。你怎么把它移植到美国?它不能离开。” 此外,员工,如 IT 专家(例如,机器的主人),可以非常保护他们使用和控制的数据源。Little 解释说,每个人都将在企业信息管理系统中形成一个圈子,“手拉手唱Kumbaya 是一个谬论”。

数据孤岛是现实,是为商业目的而设计的,需要保留;那么,组织该如何应对呢?这是一个中心部分飞跃分析谜题帮助组织解决这个问题。

如何让数据孤岛发挥作用

Little 说,利用数据孤岛取得成功需要一种不同的方法,“而不是思考我们现在可以用代码做什么,甚至只考虑计算机科学”。“它是关于通过搜索和以新方式工作来让计算机变得更好。” 利特尔在哲学和认知神经科学方面的背景提供了这种新的背景。他强调了“语义成分、受控词汇表和分类法”的重要性。所有组织信息的逻辑东西”以便计算(例如,机器学习技术)真正起作用。

Torsten Osthus 补充了 Little 的想法:

“让我们做机器学习。但是,我们需要利用数据、信息和知识作为数字化的背景资产。特别是,我们需要将人们的知识、数据和业务流程知识结合在一起。大脑也是组织中的孤岛,那些拥有数据资产可供挖掘的人。中断的数据来自自下而上的方法。创建一个知识图谱,一个基于自上而下方法的底层语义引擎,并将所有数据和知识整合在一起。这是一种真正的联合方法,数据可以保留在其原始来源中。”

我们的大脑作为模式和联想机器茁壮成长。所以,一台计算机可以,在搜索和分析引擎后面有一个知识图谱。Osthus说,将元数据连接到知识图和每个孤岛,并使数据公平:可查找、可访问、可互操作和可重用。用户可以在相关数据源中查看架构以进一步探索。

如何从知识图获得结果?Little 评论说:“我们找到了一种非常聪明的方法来对数据源进行机器学习。拉出架构,阅读并对齐它。如果我们得到奇怪的列,请去找主题专家提取意义。” 一切都保持在筒仓中的位置,包括数据治理, 数据管理,和安全。很少描述不同的搜索引擎组件是如何工作的:

“在孤岛和用户界面之间放置一个虚拟层。知识图位于带有语义模型的中间件中,使用 API、REST 连接器或其他连接到数据连接器和转换器。我们使数据源在本地变得智能,以自我报告它们是什么、它们在哪里以及如何获取它们。来自顶部界面的用户查询通过 SPARQL(一种与此知识图对话的语言)通过中间件。知识图中的一种机制直接与数据源对话,过滤数据元素并将最佳匹配作为搜索结果。然后,这些结果可以对它们进行更深入的分析、可视化等。”

只需单击一下,搜索引擎就会从整个数据生态系统的多个来源返回高级数据。从结果中,人们可以识别数据资源口袋——更快地回答他们的查询(并随着时间的推移学习/提高性能)的模式集。在权限允许的情况下,他们可以进一步缩小查询范围或详细探索。

该工具可以删除结果、缓存它们或以不同的格式(例如 CSV)导出它们。用户通过查询或分析来询问知识引擎,“通过 SPARQL 为所有翻译器形成语义,同时将数据留在原处并更容易获取详细信息。” 该模型描述了一个真正的数据联合,其中数据保持原位,无需密集的 ETL——搜索和分析可以即时进行。

速度和知识

LeapAnalysis 将 Little 的想法付诸实践,其理念是“快如地狱,没有 ETL”。现在,客户可以在几分钟到几小时而不是几个月到几年内整合数据,将正确的数据整合在一起。正如利特尔解释的:

“我们解决知识的速度问题,以解决实际的业务问题。一个人能否快速获得该知识?不仅仅是为了构建技术而构建技术。通过语义提取查询中的概念,并通过知识图以智能的方式进行操作。算法内部项目的属性,即分类器,变得更加清晰,因为算法现在连接到知识图中的概念。”

Little 和 Osthus 强调了其他四个特征:

一个核心引擎,它使用一个很好的可用面板构建客户的知识模型,该面板由一个查询和结果窗格并排组成。您可以立即查看从哪些数据源返回的内容,并判断数据的价值和质量。
将用户最喜欢的数据模式设置为所有内容映射到的参考模型的切换。您可以使用语义模型或​​您喜欢的关系模式。
正如 Eric 所说,“一组复杂的连接器直接与数据资源对话”。消费者可以为不同的数据源添加多种不同的购买方式。
允许知识引擎查询格式的数据虚拟化,例如 RDF 和非 RDF 图(例如 Neo4j 或 Titan)、任何形式的关系(Oracle、SQL 等)、NoSQL 数据库(MongoDB、Cassandra 等)。 ),以及各种媒体扩展,包括视频和图像文件。
“多年来,使用搜索引擎在语义上映射问题一直很糟糕,”利特尔说。部分由于这种负面经验,企业通过将来自不同来源的所有内容整合到一个地方,或者聘请具有领域知识的数据科学家或类似专家,从遍布各地的所有数据中提取信息,从而解决了信息混乱的问题——这是一个非常手动的努力。这样的人需要了解搜索的来龙去脉,就像汽车修理工调整引擎一样。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:CDA LEVEL Analysis 企业信息管理系统 Analysi excel函数

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 02:14