楼主: 时光永痕
358 0

[数据挖掘新闻] 为企业中的每个人带来数据准备 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

56%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
无论您是使用大数据,还是使用非常小的数据集,您总是需要为您正在处理的任何事情准备数据,”说佩奇·谢弗, 产品营销经理

为了三连冠. 谢弗和同事马特·达达,高级客户成功经理,最近与 DATAVERSITY® 谈论了 Trifacta 的数据整理技术。“数据准备是将原始数据清理、结构化和丰富为所需格式的过程,以便在更短的时间内做出更好的决策。”

据 Trifacta 的创始人说,数据准备占用了任何数据项目高达 80% 的时间和资源,他们确实编写了有关此类技术的书. 虽然对近乎即时的答案的需求正在增加,但随着数据源变得更加多样化和非结构化,这一必要过程变得更加繁琐和耗时。牧马人旨在解决这个问题。

关于 Trifacta

Trifacta 成立2012 年,由在学术界从事职业的乔·赫勒斯坦、杰弗里·赫尔和肖恩·坎德尔撰写。Schaefer 说,Heer 带来了数据可视化体验,为产品创建了可视化界面,而 Hellerstein 和 Kandel 带来了机器学习方面的专业知识。她说,基于领先的研究,Trifacta 的 Wrangler “加速了从原始数据到精炼数据的过程”。

“想想你需要做的所有工作才能让你的数据处于某种状态,以便你可以真正使用它。” 在使用之前,需要对数据进行标准化、清理和组织。“Trifacta 可让您加速这一过程。” 除了加快准备过程之外,Wrangler 还为 IT 部门以外的人员提供数据访问。“他们现在获得了这个工具,使他们能够以更强大的方式准备数据,让他们在采取任何后续步骤之前更好地了解自己的数据,”她说。

客户体验

在加入 Trifacta 团队之前,Derda 是一名客户,并分享了他认为的典型体验。“我在百事可乐,数据争吵正是我的痛点。” 他说,该公司正在为从未使用过的客户数据付费。尽管他们可以访问主要零售商的门户并下载报告,但“一切都是被动的,所以我们在出现问题之前不会查看这些数据。”

该公司的数据位于多个地方的孤岛中,只有 IT 部门可以访问,这加剧了问题。“当我刚开始在百事可乐工作时,我会接到这些关于客户超出预期的电话和电子邮件,所以我问,'这些数据在哪里?'” Derda 负责让客户知道他们超出预期,但没办法知道为什么。“我们拥有所有这些我们无法访问的数据,因此有很多 IT 与之交互。” 当 IT 谈论模型和数据治理时,Derda 正在查看 IT 正在构建的报告,这些报告根本没有他们需要的信息。他知道数据就在那里,“但我们真的无法用它做任何事情。这在那个行业是一个相当普遍的问题。”

解决问题

Derda 决心处理他们的数据,他说他们从基础开始。他们提取了少量数据样本并将其组织在 Excel 电子表格中,他们探索了“数据如何从这些不同的点连接在一起,无论是内部的还是来自客户的。” 发现电子表格不合适,他们尝试使用 Access,但事实证明,这也不能胜任这项任务。

然后他们尝试Trifacta的牧马人“这完全有道理。” 他说,他们不再需要依赖 IT,终于可以访问所有数据了。因为它是视觉呈现的,“我们可以探索它,弄清楚它需要如何组合、分析和构建它。” 当客户超出预期时,他​​们不必想知道这意味着什么,而是能够积极主动。“那是一个彻底的转变。” 他分享了一个客户的例子,该客户在不知不觉中订购的产品数量远远超过了他们的销售量。“您看到数据中出现了这个峰值,您可以打电话给客户并询问,'您确定这个订单吗?'”因此,Derda 能够与客户合作并在订单完成之前对其进行调整。“我们从那一次互动中节省了 700 万美元。”

另一位 Wrangler 用户、C+E 增长和生态系统副总裁 Charlotte Yarkoni 表示,基于信息的组织依赖于干净的数据:

“但清理和准备数据以供使用的过程既耗时又具有挑战性。Trifacta 通过利用 Microsoft Azure 大数据和高级分析服务,使我们共享的客户能够简化这些流程,以便更有效地分析数据并寻求有意义的见解。”

葛兰素史克 (GSK) 是世界上最大的制药公司之一,已在全球范围内以各种不同的形式进行了数千次临床试验。试图整合、重用和与非技术用户共享孤立的临床试验数据的过程变得效率低下且耗时,延迟了药物生产并浪费了宝贵的研发资金。葛兰素史克的科学家们对原始数据的访问有限,不得不等待数周或数月才能收到结果,这导致错过了未来临床试验的机会。

自从带来船上的 Trifacta,临床研究人员已经获得了所需数据的访问权限,这些数据以一种可以加速团队理解数据及其使用方式的格式呈现。GSK 现在使用 Wrangler 来更好地预测如何进行未来的试验。“通过 Trifacta,我们为我们的临床研究人员和分析师团队提供了更广泛的数据访问权限,以增加药物开发的创新,这是 GSK 使命的核心,”数据战略副总裁 Chuck Smith 说。

Donnelley Financial Solutions 的 IT 总监 Donny Momchilov 在 Microsoft Azure 上运行 Wrangler。Donnelley 提供的数据解决方案可帮助客户满足复杂的监管要求,并且由于在严格的 ETL 环境中客户数据的不同性质,以前需要花费数月时间来吸引新客户。在部署 Trifacta 后,他说:“我们看到开发时间大大缩短,并且能够授予我们的业务用户对他们需要处理的数据的更多所有权。”

独特的销售主张

Schaefer 表示,Wrangler 的用户友好界面是一个独特的卖点。

“您在产品顶部有一个直方图,可以查看数据的相关分布。您有预测性转换,可以建议您可能希望如何转换数据。您实际上不必考虑下一步行动——机器会为您完成。”

因为机器学习她说,人工智能被整合到数据转换过程中,“它不断学习,不仅从你的动作中学习,还从更广泛的集体中学习”,并且学习被包含在每个建议的转换中。用户还可以轻松地编辑或更改他们启动的任何流程,并且界面使用易于理解的人类语言,“因此对于没有技术专长的人来说真的很容易。你马上起来跑。”

Derda 对此表示赞同:“每个人都在评论它的易用性,它是‘点击式’并使用自然语言。” 客户还喜欢该架构的可扩展性,能够在小型和大型数据存储中表现良好。他说,另一个有用的功能是牧马人能够让非技术用户跨数据生成样本,在不移动或复制数据的情况下进行连接。用户可以根据需要自由使用数据,并且 IT 无需处理桌面和用户请求。“这是两全其美的,”他说。

最近的发展

今年该公司成立了一个用户社区,并在纽约市举办了他们的第一次用户社区活动。

“数据争论已经变得如此流行,以至于我们现在在世界各地都有用户组。” 这些群组已成为用户亲自见面并分享想法和最佳实践的一种方式。在纽约的活动中,Derda 说:“我们都希望能够回答问题并帮助人们解决问题”,但用户对产品的工作原理有着惊人的了解。“用户会提出问题,其他用户会回答。看到这真是太酷了。” 他们也没想到会出现这么大的人群来参加一场争吵活动。“整晚谈论数据——这听起来不是最有趣的夜晚,但人们愿意这样做,”他说。

Trifacta 已获得 Microsoft 联合销售合作伙伴身份,并且最近还宣布 Wrangler Enterprise 在Azure 市场,允许组织在 30 分钟内部署 Trifacta。

Schaefer 说,当 Data Wrangling 首次作为一个术语出现时,它被视为仅限于数据科学或它。然后该术语开始在大数据环境中使用,但现在它的使用变得越来越普遍。“我认为它会在未来成为趋势,因为数据争吵是每个人的问题。”

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Enterprise Microsoft CDA LEVEL financial solutions

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 14:14