楼主: 时光永痕
969 0

[数据挖掘新闻] 图数据库:最佳实践和新发展 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)五级

88%

威望
0
论坛币
26 个
通用积分
57.2086
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34190 点
帖子
2733
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
自 1990 年代以来,图形数据库有了显着改进,有了新的发展和更好地实现最佳实践。图技术已成为进行大数据研究的最流行的方法之一。它专注于寻找关系及其灵活性,使其成为各种研究项目的理想选择。对新发展的认识和对最佳实践的理解将简化使用图形数据库的任何工作。

图数据库通常被认为是 NoSQL 或非关系技术,为他们提供了扩展内存/存储和任何方向研究的能力,而无需将项目转移到不同的结构。尽管 SQL 系统可以支持图形数据库,尤其是最近有了新的改进,但 NoSQL 架构通常更有效。应该注意的是,关系/SQL 数据库可以与 NoSQL 图数据库一起工作,两者通过利用两个系统的优势相互补充。

基本原则
一种图数据库旨在为数据和连接数据的关系赋予相同的价值。数据和关系被认为同样重要。图结构(节点和边)用于表示和存储数据。图数据库中的节点代表记录/对象/实体,而边代表节点之间的关系。查询关系非常快,因为它们存储在数据库本身中。

节点可以描述为图中的实体。这些节点可以用代表域中不同角色的标签进行标记。节点标签还可用于将元数据(索引或标识信息)附加到某些节点。

边或关系提供两个节点实体之间的连接。(例如,Volunteer-SCHEDULE-Weekdays 或 Car-DIRECTIONS-Destination。)关系总是有一个方向,有一个开始节点、一个结束节点和一个类型。关系/边也可以有属性。通常,这些关系基于定量属性,例如距离、权重、成本、等级、强度或时间间隔。由于保存关系的方式,两个节点可以关联任何类型或任意数量的关系。尽管关系是按特定方向存储的,但这些关系可以在任一方向上有效导航。

使用图形数据库
图表可用于各种日常应用,例如表示光纤映射、设计电路板或地图上的道路和街道等简单的事情。Facebook 使用图来形成一个数据网络,节点代表一个人或一个主题,而边代表连接节点的流程、活动或方法。

Lockheed Martin Space 使用图形技术供应链管理,使他们更容易发现潜在的弱点并提高供应链的弹性。他们的 CDAO 托宾·托马斯 (Tobin Thomas) 表示:“想想产品创建的生命周期。我们使用图表等技术将关系连接在一起,因此我们可以看到基于特定部件或组件的生命周期以及每个元素之间的关系。”

Gartner 预测,到 2022 年,图技术的使用量将基本上每年翻一番。图数据库的日益普及部分是由于精心设计的算法使得数据排序变得更加容易。臭名昭著的巴拿马文件丑闻提供了一个很好的例子,说明如何使用算法从数千家空壳公司中寻找信息。这些贝壳为电影明星、犯罪分子和政治家(如冰岛前总理西格蒙德·大卫·冈劳格松)提供了将资金存入离岸账户的场所。图数据库,及其算法,使这些空壳公司的研究成为可能。

图数据库的问题
使用图形数据库时可能出现的问题包括使用不准确或不一致的数据以及学习编写高效的查询。准确的结果依赖于准确和一致的信息。如果输入的数据不可靠,那么出来的结果就不能被认为是可信的。

如果存储的数据使用非通用术语而查询使用通用术语,则此数据查询问题也可能是一个问题。此外,查询的设计必须满足系统的要求。

不准确的数据是基于完全错误的信息。明显的错误已包括在内。不准确的数据可能包括错误的地址、错误的性别或任何数量的其他错误。另一方面,不一致的数据描述了数据库中的多个表处理相同数据的情况,但从不同输入中接收到的数据略有不同(拼写错误、缩写等)。数据冗余通常会加剧不一致。

图查询查询图数据库,这些查询需要准确、精确,并设计为适合数据库模型。查询也应该尽可能简单。查询越简单,它的结果就越集中。查询越复杂,结果就越广泛——或许也更令人困惑。

一开始的最佳实践
出于研究目的,大多数免费或购买的批量数据都是相当准确的。不准确和不一致的数据往往是人为错误的结果,例如销售人员或网站聊天人员填写各种表格。培训员工习惯性地仔细检查他们的信息(并在培训过程中仔细检查他们的工作)可以鼓励显着改进。

查询应该从简单开始,并保持简单。如果研究变得更复杂,请不要创建更复杂的查询。创建一个新的简单查询以单独研究。CrowdStrike 提供了一个有用的例子他们在开发安全分析工具 Threat Strike 时讨论了简单查询的价值。马库斯·金和拉尔夫·卡拉维奥写道:

“在这个项目开始时,我们需要解决的主要问题是管理具有高度不可预测的写入速率的海量数据。当时,我们每天需要分析几百万个事件——我们知道这个数字会增长,现在已经达到数千亿。这个项目令人生畏,这就是为什么我们决定退后一步,不去想如何规模,但如何简化。我们确定,通过创建一个非常简单的数据模式,我们将能够创建一个强大且多功能的平台来进行构建。因此,我们的团队专注于迭代和改进,直到我们将架构简化为简单到几乎可以无限扩展的东西。”

人工智能、机器学习和图形数据库
应用于人工智能的图形增强功能正在提高准确性和建模速度。

一个人工智能平台与图形数据库合并已被证明可以成功地增强机器学习模型,从而提高复杂决策过程的潜力。图形技术似乎与人工智能和机器学习很好地结合在一起,使数据关系更简单、更可扩展、更高效。

亚马逊已将注意力转向使用机器学习用于根据属性对节点和边进行分类。该过程还可用于预测最可能的连接。这个的一些版本机器学习/图形技术选项包括物理世界的地图,例如研究从一个地方到另一个地方的最佳路线。一些版本专注于更抽象的任务——例如,知识合成——并使用基于文本或概念网络的图形模型。

当前的图形数据库已经发展到能够解决电信行业一些更复杂的挑战的地步。打击欺诈是一项已成为高度优先的挑战,人工智能和机器学习成为领先于威胁的首选。图数据库正在用于支持人工智能和机器学习在打击欺诈中使用的分析技术。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:最佳实践 数据库 destination Directions Volunteer

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-21 12:08