如何利用 Hadoop 挖掘大数据价值
大数据最近被炒的火热,这两天看到一篇文章,关于借助Hadoop实现大数据价值方面,读后感觉很受用,内容蛮干货,决定分享给大家。下面是部分白皮书内容,如果大家感觉不错,可以下载附件中的完整版白皮书。个人感觉SAS官方微信号SASChina 的文章一直比较干货,感兴趣的朋友们可以看一下。
全面利用Hadoop发掘数据中的潜在商机。
大数据与企业日常运营中使用的大量新数据一样重要,但其潜力尚未得到充分利用。幸运的是,现在已经有了充分发挥这种潜力所需的工具。例如,战略扩充Hadoop数据管理和分析功能,使企业可通过分布式数据存储和分析及时获得结果,也可以更加全面地分析所有可用数据,提高企业洞察力。
不断演化的环境
当前,随着数字化转型的兴起,包括Uber、Airbnb或Netflix等在内的众多企业正在积极追赶这一潮流。然而,企业要想真正实现转化,它们亟需采用正确的技术和流程——例如有效数据管理等。
在IDG Research Services最近调查中发现,加强数据管理已然是高度关注的重点;特别是IT界领导者正在考虑各种数据管理的应用方式,包括临时存储大型原始数据集进行高级分析,以及构建实时数据挖掘与分析的平台。
利用Hadoop
在大数据利用方面,Hadoop迅速成为首选主流平台。根据定义,Hadoop是一种基于商用硬件组件以存储数据、运行应用的开源软件框架。它可以海量存储任何类型的数据,具有强大处理能力,支持几乎无限数量的并发任务或作业。
配置中端成本商用硬件的Hadoop可以有效地存储、组合各种数据,包括交易数据、社交媒体数据、传感器数据、机器数据、科学数据、点击流数据等。利用低成本存储,企业可以保存具有潜在未来价值的信息。例如,尽管企业未必需要立即分析客户订购模式,但这种信息有利于企业今后推出下一代产品。Hadoop使这成为一种可行的方法。
IT界的领导者显然已经了解Hadoop的潜力。调查结果显示,至少66%的受访者正在考虑将Hadoop用作存储和处理大量非结构化数据的工具;约三分之一以上的受访者开始试用或已将Hadoop用于生产。
遗憾的是,认识到Hadoop的潜力与真正实现其价值之间存在相当大的差距。技能短板是Hadoop面临的最普遍问题 (44%)。受访者还关心如何整合往来于Hadoop的数据 (32%),以及如何满足安全和监管规定的要求 (30%)。
“尽管Hadoop本身是一种免费开源软件,但在人才济济的企业中仍然很难推广。为什么? 因为它不仅是数据科学组件,而且还要求每位业务人员能迅速掌握,”SAS新兴技术总监Tamara Dull说。“这也是有些企业IT部门虽然成功运行了Hadoop项目,但由于业务端用户不知道如何使用这种平台,导致企业最终放弃该项目的主要原因。这需要在看待数据与使用数据两方面改变企业文化。”