楼主: 时光永痕
196 0

[数据挖掘新闻] 通过交互式分析充分利用图形数据库 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

23%

威望
0
论坛币
26 个
通用积分
49.7565
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-19

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
新的大数据系统和先进技术正在彻底改变企业分析其数据资产的方式,并在其业务实践中发现新的价值和见解。Barry Zane,高级副总裁和 John Rueter,营销副总裁剑桥语义学,他们最近与 DATAVERSITY® 坐下来讨论公司如何将 Hadoop、在线事务处理 (OLTP) 和在线分析处理 (OLAP) 等新技术应用到他们的数据发现流程中。

当赞恩第一次进入图数据库空间,他已经知道图表擅长使用关系方法难以或不可能完成的过程。让他皈依的原因是发现“几乎可以用关系模型做的任何事情,也可以用图模型做。”

Rueter 在数据和信息领域工作了 20 多年,他认为处理数据的图形方法是最接近解决数据和信息挑战的“圣杯”的方法。

“鉴于对未来进展和数据量的预测,我们认为图表已成为前进的方向,”Rueter 说。他还指出,图数据库对数据分析所采用的根本不同方法现在可以超越关系数据库的历史限制。

在线事务处理 (OLTP) 和在线分析处理 (OLAP)

根据 Zane 的说法,OLTP 系统和 OLAP 系统之间的区别在于 OLTP 非常擅长获取或写入单点信息。“我称之为‘告诉我关于史蒂夫的事’,而分析 (OLAP) 更适合于了解整个人群的模式,而不是个人。”

OLTP 系统还擅长在一秒钟内完成数千个“告诉我关于史蒂夫”的查询,但在几秒钟内进行分析(“告诉我关于人”)直到现在还没有在图模型中可用。

Rueter 指出,目前市场上的大多数图形产品都只专注于 OLTP。将 OLTP 与 Analytics 相结合,以及为企业和决策者设计的强大而直观的界面“真正推动了图形模型的选择”。

赞恩创造了“戈拉普,”代表图形在线分析处理。“GOLAP 更多的是围绕它的分析方面。这就是图形引擎以一种完全不同且更好的方式进行分析过程的地方。”

图数据库

与其他处理方法相比大数据, Zane 评论说:“事实证明,图是一个比关系模型更简单、更灵活的模型——更不用说 Hadoop 模型了。” 他说,如果在批处理关系模型中回答问题需要 24 小时,那么 Hadoop 会更进一步。提出问题和得到答案的能力通常以秒为单位进行衡量。Zane 认为,图表的使用显示出如此大的增长的原因之一是它更接近人们的思维方式。“人们并不会真正考虑相互连接的矩形桌子。他们从关系的角度来思考。”

Rueter 将 Hadoop 降低存储成本的潜在承诺视为其受欢迎程度的推动力,“但仅 Hadoop 仍然无法解决您希望如何处理数据的问题。” 更深入的分析、迭代的提问过程以及为数据创建上下文需要额外的工具。“Hadoop 有潜力,但图确实兑现了这一承诺。”

广泛采用图的障碍是大数据操作的性能需求。Zane 表示,在开发出解决速度问题的技术之前,关系数据库也存在类似的担忧。“这就是我们进入这个领域的原因,因为相关人员在从关系中获得非常高的绩效方面拥有丰富的经验。” 通过解决大规模的性能问题,他看到了一种将图带入主流的方法,就像对关系图所做的那样。

“任何事情都会处理一百万条数据,但是当你处理一万亿条数据时,这确实需要一种利用并行计算的设计。” Zane 补充说,他们在大约两年前对 1 万亿美元进行了基准测试。

OLTP 和 OLAP 的进步

Zane 指出,现在有些地方客户数据不仅被公司收集和保留,而且还被战略性地用于提供更好、更全面的客户体验。“我们现在看到数据朝另一个方向发展”,返回给客户以鼓励购买行为或协助销售。

亚马逊是大数据领域的领导者,它使用从其他客户的购买习惯中收集到的信息来提供建议,例如“购买此商品的客户也购买了此商品”或“80% 进行相同搜索的用户购买了该商品” ,”赞恩说。显示相关产品之间关系的分析结果随后被路由回 OLTP 系统。亚马逊客户实质上是在向 OLTP 系统发送一个简单的查询,询问购买了特定商品的人还购买了哪些其他东西,“但在这种情况下,它背后的分析通常是由仓库系统在一夜之间完成的。”

Zane 看到越来越多的公司使用这种将分析结果反馈到 OLTP 系统的过程,以便数百万在线用户可以对其进行响应。“它是离线完成的,然后反馈到 OLTP 系统中,这样他们每秒可以处理数千个,”他说。

机器学习和人工智能 (AI) 模型同样通过在 OLAP 系统上执行的分析进行训练,但图形 OLAP 系统本质上可以执行更快的迭代发现并帮助为决策过程提供信息,同时还可以理解更复杂的问题和关系。

Zane 说,你可以越快地实时响应第一个问题,这个人就能越快地提出下一个问题、下一个问题和下一个问题。从历史上看,仍然有许多技术适用于批量操作,但如果问题之间的批量循环时间是 24 小时,“这很简单——你不能在只能发布一次问题的情况下进行人工探索和发现一天。”

AnzoGraph

Rueter 谈到了剑桥语义学AnzoGraph 平台,这是一种处理数据的端到端方法,“它是摄取、加载、转换、ETL、安全性、出处等,一直到在单个环境中发现分析。”

直到大约六个月前,Rueter 还说 AnzoGraph 已被“埋葬”在 Cambridge Semantics 的 Anzo 产品中。AnzoGraph 是扩展语义技术并使用它进行分析的能力的基础部分。“我们意识到,在某些方面,我们没有更好地宣传它,从而未能为市场服务,因此我们将 AnzoGraph 作为独立的图形仓库引入市场。”

Zane 补充说,很少有客户希望负责为 ETL、建模和映射数据创建所有必要的工具,因为它正在被摄取。“使用 Anzo,您甚至无需了解查询语言即可与数据进行交互。” 用户可以使用图形点击类型的界面与他们的数据进行交互,允许他们在其转发到数据库的封面下询问复杂的查询。“在不了解查询语言(更不用说编程语言)的情况下,通过图形用户界面创建和提出有趣问题的能力对业务用户来说是一个巨大的价值主张。”

是什么让 AnzoGraph 与众不同,Zane 说,它能够从外部来源(关系或图形)获取数据并将其呈现出来,“这样它就符合业务用户的世界观。” Rueter 补充说,用户能够自始至终为他们的数据创建出处,“他们可以对他们正在做出的决策充满信心。”

在不断发展的系统、数据类型和新技术的新的面向数据的世界中,企业需要以传统方法的一小部分成本获得更快、更深入的洞察力。图数据库技术的最新发展现在为这些问题提供了可靠的解决方案。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:交互式 数据库 CDA LEVEL Analytics Cambridge

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 23:12