楼主: youcai_vivi
1541 1

[数据挖掘理论与案例] 云上的大数据 [推广有奖]

  • 0关注
  • 0粉丝

本科生

22%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
436 点
帖子
43
精华
0
在线时间
5 小时
注册时间
2013-4-24
最后登录
2013-5-30

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
       当云计算遭遇大数据,并一股脑向企业涌进的时候,企业能否驾驭呢?

       作为2012年最热的技术名词,“云计算”与“大数据”似乎具有相似的隐喻性,而一旦与“计算”搭上边,“云计算”涵盖的内容似乎就更多,边界也更加模糊。有IT解决方案提供商将云计算与过去的“效用计算(Utility Computing)”联系起来,称云计算是其的升级版,即通过互联网实现虚拟服务器效用,使用户的所有活动、应用、消费等需求的满足都可以在“云端”实现。一旦与用户需求相关,云计算的轮廓似乎马上就清晰起来,这时候会有人告诉用户,“云”是一种在不增加对新IT基础设施、员工培训、软件授权等投资的前提下,拓展IT能力的方法。

       厘清边界

       更多的人容易把云计算与上世纪八九十年代SUN和甲骨文等厂商力推的网格计算混为一谈,但其中自有道理。云与网格都拥有庞大的、灵活的多层体系架构以及多任务的并行处理能力,云的计算能力则是集中“输送”的,用户可以随时随地享受到云端的各种服务和应用;而网格则是网状式分配,即把大任务分割成不同的小任务,再将各个小任务交给底层不同的处理单元。

       把应用、信息、数据的管理和提供作为一种服务模式进行兜售,这让大大小小的IT厂商乐于向用户“兜售”自己基于云的服务。从以SaaS为代表的软件服务到PaaS的平台服务,再到诸如存储、数据中心之类的基础架构服务,不一而足。

       从“网络就是计算机”到“网格计算”,从“分布式计算”到“互联网计算”,长期以来,与“云计算”相类似的理念被学术界和不同的企业各自表述——虽然各个理念的内涵有些细微的差别,但大多基于充分利用网络化计算与存储资源、达成高效率低成本计算目标的考虑,希望能更好地整合互联网和不同设备上的信息和应用,把所有的计算、存储资源连结在一起,实现最大范围的协作与资源分享。

    “大数据”的公认看法是归纳为4个V:海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。在IDC发布的关于中国大数据技术和服务市场2012~2016年预测与分析报告中显示,大数据技术与服务市场的规模将会从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%,市场规模增长近7倍。

       大数据首先要考虑的应该是“大”——海量的数据规模。谷歌首席执行官EricSchmidt曾说,现在全球每两茅屋价值天所创造的数据量等同于从人类文明至2003年间产生的数据量的总和。而具体到企业应用领域,漫无边际、浩如烟海的数据对企业并无意义,日立数据系统公司(HDS)副总裁兼CTO Hubert Yoshida表示,数据量的“大”是相对而言的概念,对于像SAP的HANA那样的“内存数据库”来说,能把2TB的数据用好就是胜利;而对于像Google这样的搜索引擎,EB(1024×1024 TB)的数据量才能称得上是大数据。

       然而,海量数据的危机并不单纯是数据量的爆炸性增长,它还牵涉到数据类型的改变。原来的数据都可以用二维表结构存储在数据库中,如常用的Excel软件所处理的数据,称之为结构化数据。但是现在更多互联网多媒体应用的出现,使诸如图片、声音和视频等非结构化数据占到了很大比重。有统计显示,全世界结构化数据增长率大概是32%,而非结构化数据增长则是63%。2012年,非结构化数据占有比例已经达到互联网整个数据量的75%以上。产生智慧的大数据,往往是这些非结构化数据。

    “互联网产生的非结构化数据占比越来越大,约为大数据总容量的85%,传统行业的数据大概只有15%。”对于百度这样的互联网公司,建立数据体系、研发消费者画像、品牌探针等基于大数据的多个应用简直是天经地义。百度副总裁王湛将百度的大数据策略描述为“数据+工具+应用”,包括百度指数、司南、统计、搜索风云榜和研究中心在内的5大平台数据已经形成了一个数据集合体,全程记录消费者从需求、搜索、购买,到使用和分享的整个心路历程,对客户进行精准营销。“通过5亿消费者的千亿级行为数据,百度构建了搜索营销、无线推广、联盟受众引擎、社交化营销、品牌洞察等多维度体系的百度商业产品蓝图。”

       大数据带来的挑战还在于它的实时处理。在数据仓库诞生的第一天,一直就有一个话题——要把大查询分解成小任务,这些小任务由一台台的机器来完成。“我们的要求在于,上亿条数据的分析能够在5秒钟内完成。”中国民族证券信息技术部总经理颜阳表示。因为过往关联性数据库产品处理大量数据时的运算速度都不快,Hadoop等加速数据查询的分布式开源数据库从边缘走向主流;另外,数据存储的厂商也不再拘泥于用传统硬盘来存储数据,而尝试使用快速闪存。

       所以,所谓的“大数据”并不是单一技术,而是众多技术的集合体,它们的共同目的,都是在一定时间内处理完大量的结构化、半结构化或非结构化数据。

       数据掘金

       根据Gartner预测,结构化数据库(Column Store-DBMS)以及与此相关的数据分析技术仍将呈现高速发展的趋势,远高于目前大热的社交媒体监控、Web分析等技术。

       为什么古老的关系型数据库依然吃香?其实不难理解,因为对于数据采集、保存、使用、分享与分析等用途而言,数据库都是最关键的基础。面对大数据的读写效率以及准实时(Near Real-Time)运算能力的要求,传统的关系型数据库无法承受,然而随着Hadoop的大行其道,连带使得诸如BigTable、HBase或Cassandra等非关系型数据库(NoSQL)开始抬头。

       事实上,NoSQL另一层涵义是“Not Only SQL”——补充关系型数据库的不足之处,而非取代之。因此,企业可以从自身数据库的I/O需求、单一数据表的储存需求等不同层面,审视处理大数据的过程中,会面临哪些难题?而这些难题,哪些是SQL可以解决的、哪些又是SQL所不能解决的。如此说来,关系型数据库的应用空间尚十分宽广,最起码,它对于数据的读取效率肯定比非关系型数据库强大许多。

       云计算对于大数据处理与分析的重要性勿庸置疑。从私有云角度看,想在企业内部进行大数据的分布式计算,都要基于计算、储存以及网络资源的灵活调度,值此时刻,如果不采用云计算方式,似乎只有部署超级计算机这一条道了。
       再谈到公有云。尽管各行各业都在谈论从大数据分析中获益,但实际情况下多数应用领域,并不需要随时进行分析。这种情况下,企业可以采用弹性付费的方式,向云计算服务提供商租赁大数据分析所需要的计算资源。微软就在自己的Windows Azure公有云端平台上提供Hadoop租用服务,甚至标榜能将Windows与SQL Server方便管理的特性带到Hadoop环境,成为典型的云端大数据服务。
       在商业社会中,“从数据中得到价值”一直都不是什么新鲜的东西,但是当大数据时代到来,经济的新增量逐渐显露出来。尽管数据挖掘从“啤酒与尿布”开始做了几十年,但是“大数据”与我们通常所说的“数据”还是有显著的不同。
       如果善于运用海量数据进行实时分析,那些看似不着边际的数据,立即就能蜕变为高价值的资产,造就巨大商机,难怪奥巴马政府也趋之若鹜,决定未来在政府层面投入2亿美元的大数据研究与开发经费。
       花旗集团今年聘请了一位名叫沃森的天才顾问,帮助其增强数字银行业务。这位沃森还同时为包括WellPoint在内的医疗服务公司提供咨询,去年,他还在工作之余获得了电视智力竞赛节目《危险边缘》的头奖。据沃森的朋友讲,他还有其他不愿透露的企业职务,年收入很快就会超过10亿美元。这一天文数字的收入使他成为美国打工者中的超级精英……只不过,沃森是一台机器。
       对数据进行挖掘分析正在颠覆每一种类型的企业。位于纽约长岛的文艺复兴科技公司(RenaissanceTechnologies)所管理的对冲基金,目前管理着150亿美元的资产。这家公司或许是20年来业绩最佳的对冲基金,而领导这家公司的是两名来自IBM人工智能实验室的科学家,他们开发了许多数学模型用来进行分析和交易,这些模型都是建立在海量数据基础上的,具有可靠性并可进行实际预测,而最后的结果往往与他们预想的一样。
       蒸汽机的发明实际上并没有引起第一次工业革命的爆发,人类主要经济模式开始从传统农业向工业变迁的真正起始点来自于铁路等交通网络的大规模铺设;同样的,第二次工业革命的爆发也并未源于爱迪生发明神奇的电灯泡,而是源于稳定的电网系统成为社会公用的基础设施。
    起源于上世纪90年代的第三次信息技术革命,提供了与铁路和电网近似的基础设施名叫Internet——互联网,这为云计算在企业级领域的大规模部署提供了硬件条件,各种终端、传感器的使用为大数据的积累提供了基础。麻省理工斯隆商学院数字业务中心研究员Michael Schrage认为,IBM、甲骨文、微软等传统系统提供商的一大共性就是拥有要求越来越高的巨型客户,比如沃尔玛、波音这样的巨型客户往往极力避免和专有解决方案供应商产生联系,而是希望自己的系统是标准、开放并且可扩展性更强。
       曾经是媒体记者Michael认为,如果在开放或者互操作性的环境中TCO更低,客户一定会放弃专有,而追逐开放。“客户可不管埃里森(甲骨文公司CEO)多有魅力,也不会管史蒂夫·鲍尔默(微软公司CEO)多有魅力,而只看解决方案是否满足了我的需求。”Michael开玩笑说,就像当初沃尔玛在实际操作上强迫供应商之间进入协作,巨型客户会推动解决方案供应商向云计算与大数据迈进。

作者:孙泠

IT经理世界 2012年第21期


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据 Technologies Renaissance computing Real-time 云计算 解决方案 搜狐微博 百度搜

沙发
lzfreely 发表于 2013-5-14 14:02:27 |只看作者 |坛友微信交流群
您好,请问您那边有IDC的《中国大数据技术与服务市场2012-2016年预测与分析》一文吗?可以的话能分享一下吗?谢谢您!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 01:45