楼主: 420948492
8884 51

[问题] 大数据来了,你怎么看 [推广有奖]

11
420948492 发表于 2012-11-26 12:48:24
大数据疑难杂症探秘
我也说几句2012年11月26日 09:45分         作者:美国《InfoWorld》专栏作家 Andrew Lampitt      来源

【CNW.com.cn 专稿】面对多达250TB的数据集,纽约州立大学的研究人员用大规模硬件升级、以及使用基于R统计语言分析技术的方式,找寻解开疑难杂症病因的密码。
纽约州立大学(SUNY)布法罗分校是全球领先的多发性硬化症(Multiple Sclerosis)研究中心之一。在这里,基于大数据的分析正在帮助研究人员找寻潜在病因和治疗方法,以帮助患者缩短治愈周期。
目前多发性硬化症的病因尚未十分明确,但是业内普遍认为,多发性硬化症是由于病毒和基因缺陷等因素共同导致的,同时可能还与阳光和吸烟等环境因素有关。Murali Ramanathan博士是纽约州立大学研究中心数据密集发现创新的联执主任。他们开发了名为AMBIENCE的技术,这一技术能够让研究人员对多遗传变异——单核苷酸多态性(SNP)与增加患者罹患多发性硬化症风险的环境因素之间的交互作用展开更为高效地搜索。
用于这一多变量研究的数据集容量已超过250TB。同时,由于研究人员试图发现数千个遗传因素与环境因素之间的重大交互作用,因此数据分析需要更加强大的计算能力。在这项研究中,有两个主要障碍需要被克服:即对庞大数据集进行处理,并利用这些数据集创建复杂而易于定义的分析模型。研究人员不仅希望能够发现哪些个体变量更为重要,同时还希望能够发现哪些综合变量更为关键。
需要在商用硬件上运行抽样数据的算法几乎要花上一周的时间才能得到结果。研究人员很快就发现,要想对全部数据进行运算还要花上数周的时间。过长的运算时间可能会导致一些额外的问题,比如算法调整、数据变更,等等。
为了应对这些挑战,研究人员选择创建一个整合了IBM Netezza分析数据库工具和Revolution Analytics公司的商业版R语言的分析架构。Netezza可以将处理能力提升100倍,将分析所需要的时间由27.2小时缩短至11.7分钟。并行处理也非常关键,但这仅仅是一个开始。与此同时,一些分析操作在数据移出磁盘时就已经开始执行,而不是仅在主处理器上进行全部的处理工作,因此它们能够更快、更高效地进行分析。
在R统计语言的基础上,Revolution Analytics公司允许研究人员快速而方便地在模型中添加和移除变量,无需编写数百行代码。同时,他们还允许团队使用医疗记录、实验室数据、核磁共振成像(MRI)扫描和患者调查等数据集变量和大量因变量,以对这些变量中的交互作用展开研究。
过去,纽约州立大学的研究团队必须重新编写整个算法。现在,得益于新的系统,科研人员可以自行轻松地调整算法。借助于新的解决方案,研究人员能够使用新的算法,添加多变量和数据集进程。这些在以前都是不可想象的。得益于这些成就,研究人员目前正在转向更为复杂的研究,朝着解开多发性硬化症背后的神秘机制又向前迈进了一步。(范范编译)
有人的地方就有江湖

12
420948492 发表于 2012-11-26 12:49:53
大数据:污染者还是环保者摘要:我们知道,随着海量数据的增长,我们需要更多的硬件来储存这些海量的数据,并将这些服务提供给所有的数据最终用户,无论是商业用户或是普通消费者


这个问题,就如《纽约时报》在其之前发表的一篇文章中指出的那样:所有的硬件都在加大马力全力运作,甚至包括工业冷却设备和备用柴油发电机排放到大气中废气和其他污染物。同时,即使数据中心运营商持续奖励那些节能措施,连续正常运行时间超过其能源效率的运作经常在满功率运行,但仍然有许多服务器明显处于闲置状态或明显未充分利用。

  随着数据量的不断增长,也将由此产生相当数量的数据中心带来的污染。这一点,正如《纽约时报》所一针见血的报道的那样,明显与信息产业的时尚、高效率和环保的形象不符。

  我并不完全同意这一评估。是的,云计算时代的数据中心确实明显比之前的一个普通的家庭甚至是大的城市公寓大楼制造了更严重的污染。但总体而言(即使《纽约时报》也认可)所有的数据中心所消耗的国家的能源资源仅为2%。而且,我们还有很长的路要走,数据中心行业在提高数据中心的效率方面已然有了显著的进步。

  说到更具体的大数据,通过采用部署Hadoop等一系列的措施,硬件效率正在改善。根据上月的一份研究报告显示。其中一个是VMware公司的最新开源Serengeti项目,使管理员能够部署在现有的硬件上部署Hadoop虚拟化。这既提高效率,同时又避免了购买新的硬件的需要。

  另一个项目是Pervasive Software的DataRush产品:

  DataRush和RushAnalyzer抽象出来的复杂并行Hadoop作业,能够让用户实时监控I/O和CPU使用情况,并减轻内存的限制。最终能让服务器的利用率高达80%,并且能够更迅速和反复进行大数据分析。

  《纽约时报》忽略的另一点是,大部分数据分析专家结合气候变化和环境进一步进行的可持续发展研究都是由这些数据中心所支持的。例如,美国航天局所建立的气候模拟中心,建立一个自定义的大数据平台收集了多达数PB的气象资料,以更好地预测和理解全球气候变化。NCCS数据中心消耗了大量的电力,但研究人员通过大数据分析发现的却是可能导致限制或甚至扭转全球变暖的方法。我想说,这只是一个公平的交易。

  当然,并不是每一个大数据项目的目标都是促进更大的利益。但有一些这样的项目,在气候科学以及医疗和教育行业。

  我很赞赏《纽约时报》针对这一问题进行重点讨论。但是让我们保持现实的观点。大数据的确排放了大量的污染物在大气中,但大数据行业也正在发展更有效的计算方法,并解决一些最棘手的环境所面临的挑战,人类将有可能弥补以上任何数据中心操作,更高效的计算,将直接影响大气环境。

  责任编辑:yayo



有人的地方就有江湖

13
420948492 发表于 2012-11-27 18:09:30
传统分析与大数据分析的对比
https://bbs.pinggu.org/forum.php? ... &from^^uid=398795
有人的地方就有江湖

14
420948492 发表于 2012-11-27 18:57:08
数据挖掘新潮流:“大数据”时代
https://bbs.pinggu.org/forum.php? ... &from^^uid=398795
有人的地方就有江湖

15
420948492 发表于 2012-11-30 12:28:22

http://tech.cnr.cn/list/201211/t20121130_511452500.html


中科院程学旗:大数据时代面临八大核心问题


2012-11-30 11:51    来源:搜狐IT     打印本页 关闭



  C114讯 11月30日消息(杨笑)在今天上午召开的由中国计算机学会主办的“Hadoop与大数据技术大会”上,CCF大数据专家委员会秘书长、中科院计算所研究员程学旗表示,经过调研提炼出大数据时代八大核心问题。

  据程学旗介绍,这八大核心问题是数据科学与大数据的学科边界、数据计算的基本模式和范式、大数据的特性和数据态、大数据的作用力与变化反应,大数据的安全和隐私、大数据对IT技术的挑战、大数据的应用和产业链、数据的生态环境问题。

  对于大数据的作用力与变化反应问题,程学旗表示,这包括了两个方面,第一个是如何将大数据变小,在尽量不损失价值的情况下减少数据的规模,像数据的清洗、去除等等,即如何有效地处理大数据类似物理的作用,把大数据的规模变小但不损失价值。第二个是化学作用,从一个平面的大数据提炼出高附加值的概念、知识和智慧。大数据的探索和可视性在这里面可以得到很大的发挥。

  对于大数据对IT技术的挑战问题,程学旗表示,这包括存储、传出和分布式计算相关的整体架构的变化。目前Hadoop实际上是应对大数据及大数据处理的相关的架构,虽然它目前的影响力很大但离成熟还有很远的距离,也就是说大数据的发展和爆发对IT架构提出了大的挑战。

  对于大数据的应用和产业链的问题,程学旗表示大数据有大价值,但在产业上如何形成有效增益的环境,以及大数据到底在什么样的应用领域里能够发挥绝对的价值,比如说跟社会科学、跟金融相关的,还需进行一些分析。

  对于大数据的生态环境问题,程学旗表示,如果大数据时代真正来临,一方面数据市场和数据衍生品将带来市场的繁荣,另一方面是政策、环境包括投资环境和管理政策方面以及科研、研究所、学生的培养和国家政策的扶持方面将形成生态环境







有人的地方就有江湖

16
420948492 发表于 2012-11-30 12:29:31

http://it.sohu.com/20121130/n359115319.shtml

EMC Bill:安全云计算大数据是公司三大重点

狐IT消息】(文/刘瑞刚)11月30日消息,今天上午,EMC董事会副主席Bill Teuber在接受搜狐IT专访时表示,云计算、安全和大数据分析将成为公司未来的三大重点,其中,并购Vmware和GreenPlum帮助EMC切入并强化了在云计算和大数据等方面的IT服务能力。

  并购切入云计算和大数据

  EMC是一家传统的存储厂商,成立于1979年,总部位于Boston附近的Hopkinton。一直以来,存储产品和解决方案是EMC公司的核心服务,但EMC通过并购一步步扩大了自己的产品线和业务。

  2003年,EMC宣布以6.35亿美元的价格收购了一家创立仅5年的虚拟技术公司Vmware。如今来看,这一交易成为EMC史上最划算的买卖,因为Vmware公司的市值此后增加了数十倍。

  2010年,EMC宣布计划收购一个总部位于美国加州西海岸的云计算公司GreenPlumm。分析师称,EMC此举暴露了其全面进军云计算领域的野心。

  需要说明的是,EMC并购GreenPlumm将获得一批优质客户。资料显示,Nasdagq、NYSE Euronext、 Skype、T-Mobile和Fox Interactive Media都是GreenPlum的客户。EMC并购GreenPlum之后,这些客户资源也为EMC所用,对于EMC云计算产品的推广起到了一定作用。

  Teuber向搜狐IT表示,正是借助这两起并购,EMC切入并强化了自己在云计算和大数据分析等方面的能力。实际上,EMC的并购名单可以列很长,据不完全统计,EMC十年内并购70多家企业。

  并购原则:没有破的东西不要去修

  对于并购,EMC有一套自己的理论,不是破的东西不要去修,但是,收购来的企业也不能不管。

  华尔街对于并购案一向不看好。比如,2012年,两家美国上市公司海辉和文思合并,合并后双方的股价均出现下跌。文思海辉董事长在同搜狐IT对话时就称,华尔街对于并购通常是要打叉号的,原因是整合面临一系列问题。

  对于整合,EMC有一套自己的理论。第一条就是“没有破的东西不要去修”。Teuber表示,被收购的公司不一定要听母公司的话,原因是被收购的公司通常是因为优秀才被收购,所以,EMC要尽量保留和培养原公司的人才及文化。

  Vmware就是一个明显的例子。虽然被EMC收购多年,但Vmware一直保持相对独立。

  当然,被收购公司不听母公司的话并不代表EMC对被收购对象不闻不问。Teuber表示,EMC会帮助新公司做一些指导,或者培训,比如管理方面和市场营销方面。

  此外,Teuber认为,收购企业关乎“名声”问题,如果被并购企业人才流失,那么潜在的并购对象就会表现出不愿意被收购的愿意。

  据Teuber介绍,EMC每年会拿出约10%的营收投入研发,拿出约25亿美元投入到并购当中。因为EMC进行了数十起并购,因此,投资人对EMC的并购举动表示理解。

  EMC中国愿景:希望叶成辉扩大份额

  作为全球新兴市场的主管,Teuber同时管理着中国市场。Teuber表示,EMC中国的业绩增长很明显,但EMC希望叶成辉可以进一步提高市场份额。

  现阶段,EMC在中国建立了三个研发中心,这三个研发中心同时面向集团提供支持,但会专门来针对中国市场提供解决方案。此外,EMC还在加大同中国本地企业的合作。

  Teuber强调,EMC会重点加强同合作伙伴的合作。2012年,EMC同联想成立合资公司。据Teuber透露,双方已经有了一些实质的进展。目前双方合作集中在三大块,一是合资企业会生产EMC的消费者品牌。第二是EMC会在中国市场销售产品。第三,EMC会帮助联想开发服务器技术。


有人的地方就有江湖

17
420948492 发表于 2012-11-30 12:33:59

大数据进行时:聚光灯后的四大推手
这是一篇来自留英信息工程博士周文哲的一篇投稿,她于去年创业成立[url=http://www.brainpage.cn/]幸福佩智
公司,专注于提供 Hadoop 的大数据处理与分析解决方案,产品已被应用到互联网广告、物联网等行业。

“大数据”这一话题在国内从今年起受到投资者追捧,也不断有高技术人才选择这个方向创业;但实际上国外对于“大数据”,已经走过了概念炒作阶段,出现了实际的应用,产生了实际的效益。周文哲这篇投稿,为我们详细揭示了大数据盛行背后的原因,以及大数据在国外发展的情况。

“忽如一夜春风来,千树万树梨花开”是唐朝的诗人岑参描写西北边塞早雪奇景的诗句,用来形容大数据的盛行,莫不为过。就在几个月前,大数据似乎还只是一个遥远的话题,短期内就“如一夜春风”吹来,在各种媒体、论坛、甚至ZF战略中频频露脸,那么,是什么推动了它的盛行呢?这些聚光灯背后,又有着怎样的故事?本文我们将从行业发展、应用普及、技术进步、金融和政策鼓励四个方面来探讨大数据的幕后推手。

推手一:数据的迸发

大数据的概念或许大家并不陌生,“大”字不仅意味着数量的庞大,还代表着数据种类繁多、结构复杂,变化的速度也非常快,这些特征的出现与互联网的发展息息相关。从搜索引擎、社交网络的普及到今天人手皆是的移动终端,互联网上的信息总量正以每年 50% 的增速不断膨胀,其中 90% 的信息来自近三年,包括每个月 Facebook 上分享的 30 亿条内容,每天 12 TB 的 Twitter 信息,每天淘宝上超过 30 亿条店铺、商品浏览纪录及上千万的成交、收藏纪录等等。据 IDC 统计,2011 年全球所产生的数据总量是 1.8 ZB(10 的 21 次方),如果把这些数据刻录到 CD 碟片中,其摞起来的高度等于地球到月球的距离!

数据不仅在“量”上疯狂的增长着,在“源”上也不断的丰富着。目前世界上产生的数据,有近 80% 是由个人用户产生的;据估计,到 2020 年全球将有 500 亿个设备连入网络,地理位置、网络浏览行为、健康数据、甚至基因信息等,都成为技术为个体服务的有效资源,这也意味着商家对每一个用户都将有精准的了解,真正做到与客户的“零距离”接触。正是这种巨大的商业利益的驱使,使得大数据成为国际一流企业竞相投入使用的竞争利器。

推手二:应用的普及

今年年初,美国一名男子闯入了他家附近的 Target 店铺(Target 是一家美国零售连锁超市)。“你们怎么能这样!”男人向店铺经理大吼到,“你们竟然给我 17 岁的女儿发婴儿尿片和童车的优惠券,她才 17 岁啊!”店铺经理不知道发生了什么,立刻向来者道歉,表明那肯定是个误会。然而,经理没有意识到,公司正在运行一套大数据系统。一个月后,这个愤怒的父亲打来电话道歉,因为 Target 发来的婴儿用品促销广告并不是误发,他的女儿的确怀孕了。

诸如此类的应用,在国际零售行业巨头中已屡见不鲜,我们以 Target 作为首例,是因为它的案例的确留给人强烈的印象:数据的力量,不仅让商家提升了自己的业绩,还让客户为之心甘情愿买单。Target 创建了一套女性购买行为在怀孕期间产生变化的模型,不仅如此,如果用户从他们的店铺中购买了婴儿用品,Target 在接下来的几年中会根据婴儿的生长周期情况定期给这些顾客推送相关产品,使这些客户形成长期的忠诚度。

实际上,诸如沃尔玛、Tesco(英国零售巨头)等巨头已从数据中获得了巨大的利益,也因此巩固了自己在业界的长盛不衰。以 Tesco 为例,这家全球利润第二大的零售商从其会员卡的用户购买记录中,充分了解一个用户是什么“类别”的客人,如速食者、单身、有上学孩子的家庭等等,并基于这些分类进行一系列的业务活动,比如,通过邮件或信件寄给用户的促销可以变得十分个性化,店内的上架商品及促销也可以根据周围人群的喜好、消费的时段来更加有针对性,从而提高货品的流通。这样的做法为 Tesco 获得了丰厚的回报,仅在市场宣传一项,就能帮助 Tesco 每年节省 3.5 亿英镑的费用。

在互联网行业,大数据更是为电商、广告商们提供了丰厚的回报。雅虎于 2008 年初便开始启用大数据技术,每天分析超过 200PB 的数据,使得雅虎的服务变得更人性化,更贴近用户和客户。它与雅虎 IT 系统的方方面面进行协作,包括搜索、广告、用户体验和欺诈发现等。AOL 也设立了 300 节点的服务器集群,将在其下属系列网站(如 AOL.com、Huffington Post、MapQuest 等)中每天 500TB 的用户浏览信息收集起来,分析和预测这些用户的行为,以便有针对性的为每个月 1.8 亿独立用户进行个性化广告服务。

于亚马逊(Amazon)而言,数据技术的应用更是为其成为一家“信息公司”,独占电商领域鳌头奠定了稳定的基础。为了更深入的了解每一个用户,亚马逊不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来:每个页面的停留时间,用户是否查看 Review,每个搜索的关键词,每个浏览的商品等等,在亚马逊去年 11 月推出的 Kindle Fire 中,内嵌的 Silk 浏览器更是可以将用户的行为数据一一记录下来。这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解,对于其货品种类、库存、仓储、物流、及广告业务上都有着极大的效益回馈。

数据技术的应用不仅在零售和互联网行业获得极大回报,其带来的经济价值使得各行业均为之“竞折腰”。在能源行业,Opower 使用数据来提高消费用电的能效,并取得了显著的成功。作为一家提供 SaaS 服务(软件服务)的创新公司,Opower 与多家电力公司合作,分析美国家庭用电费用并将之与周围的邻居用电情况进行对比,被服务的家庭每个月都会受到一份对比的报告,显示自家用电在整个区域或全美类似家庭所处水平,以鼓励节约用电。Opower 的服务以覆盖了美国几百万户居民家庭,预计为美国消费用电每年节省 5 亿美元。

最值得一提的是生物信息行业。生物信息是继互联网行业之后数据迸发最迅速的行业,并将远远超过互联网产生的数据:人类用 0 和 1 创造了虚拟世界,而造物主用 A/C/T/G 四种元素创造了万物生灵,生命的产生、发展、消亡的奥秘尽在其中。随着测序技术的发展,全基因组的测序价格由十年前的上亿美元降至今天的数千美元,这使得更多人、物种的 DNA 信息的获取成为可能。个体全基因组信息的获取,使得个性化诊疗服务成为可能。在美国华盛顿大学,研究人员通过对一位白血病患者的基因信息进行分析,成功的找出了导致癌细胞迅速扩散的致癌基因,并发现了能够阻止该基因产生作用的药物,有效的延长了患者的生命。

诸如以上的应用,在悄无声息的进行着,是数据带来的市场价值推动着一切的进行,亦构成了“引爆”大数据产业发展的第二个推手。

推手三:技术的发展

技术与应用之间从来就是相辅相成的关系:应用的实现需要技术的支撑,而技术的进步能推动应用的普及。在以上实例应用的背后,是大数据技术让一切成为了可能。本文中,我们所指的大数据技术,主要是以 Hadoop 为代表的非关系型数据库系统及分布式运算架构,在这一部分,我们将简要介绍其发展背景。

上世纪 60 年代末关系型数据库技术的出现使得数据能按照固定的结构进行存储,方便用户根据数据属性进行查询的同时,也使得管理大为简便。然而,数据量的爆发增长和数据结构的多样性,不仅要求能快速录入、提取海量数据信息;还要求数据库随着数据量的增加而灵活扩展、数据存储不局限于固定的结构。这时,传统的关系型数据库技术已无法满足这些需求,于是,NoSQL 技术在上世纪末期开始出现。

然而,非关系型数据库技术一开始并未得到广泛应用,直到 2009 年,在搜索引擎、社交网络等互联网应用盛行使得数据量迅猛增加后,才开始为人们所重视并投入使用。发展到今天,NoSQL 技术已经形成了一系列不同用途的数据库管理系统,如 BigTable、Amazon DynamoDB、Hadoop/Hbase、Cassandra 等列族存储系统(Wide Column Store),MongoDB、CouchDB 等文件存储系统,Neo4J 等图形数据库系统。由于列族存储系统支持多种类型的数据存储,目前应用的范围最为广泛。

2004 年初,Google 开始研发 BigTable 非关系型数据库系统,它是建立在 Google 文件系统之上的一种压缩的、高扩展的数据库技术,可以让 Google 对于自身新增业务处理进行低成本的扩展。8 个月后,BigTable 开始投入内部使用,后来被广泛应用于一系列的 Google 应用中,如 Google Reader、Google Earth、Google Maps、Gmail、YouTube 等等。为了解决海量信息的计算问题,Google 又研发了 MapReduce 的并行计算技术架构,使得 T 量级以上的数据可以并行处理,并通过 BigTable 来存储和更改资料,有效的支撑了 Google 日益增长的数据处理任务。而 BigTable 这一模型,启发了众多“后来者”的数据技术。

Hadoop 便是其中一员。这个由 Yahoo! 的前员工 Doug Cutting(现任职于 Cloudera 公司)最初负责开发的项目,已成为大数据行业的技术中心。Hadoop 是由一系列开源技术组成的分布式架构,包括 Hbase 列数据库系统、MapReduce 并行计算框架、HDFS 分布式文件系统、Mahout 算法库等等,由于其扩展性高、数据种类灵活、成本低,Hadoop 被广泛应用于各行各业,包括互联网、生物信息、物联网,甚至美国宇航局 NASA 也用 Hadoop 来处理从宇宙望远镜中传回海量无线电数据,其数据量达到每秒钟 700TB!

2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,其中包括 IBM、甲骨文(Oracle)、微软EMC、Teradata 等行业领先的数据解决方案提供商,使得 NoSQL 技术成为现存 SQL 数据解决方案的强有力补充;众巨头纷纷推出相应产品,来适应其客户数据业务的爆发增长,如 IBM 的 InfoSphere BigInsights,甲骨文的 BigData Appliance,EMC 的 GreenPlum 等等。Cloudera 公司的产品使得开源技术有效的为商业客户提供服务,而其创始人 Jeff Hammerbacher 亦被福布斯评为美国 30 位 30 岁以下科技领域的明日之星之一。

目前,Hadoop 技术以及被广泛应用了各大互联网公司,包括 Facebook、亚马逊、苹果、AOL、Ebay、Twitter、Netflix、淘宝、百度等等;在生物信息行业中,也初步得到了应用,如大型制药公司提供研究服务的 NextBio 公司,设立了 100 个节点的 Hadoop 集群来帮助制药公司进行基因研究。先进技术的发展为企业提供了高效使用数据的便捷工具,是促进大数据行业发展的第三大推手。


有人的地方就有江湖

18
420948492 发表于 2012-11-30 12:34:36
推手四:金融与政策的鼓励
行业的发展,除了市场需求的驱动、技术水平的进步,还离不开资本与政策的瞩目。据麦肯锡报道,大数据已经实现了显著的经济价值:为美国的医疗服务业每年节省 3000 亿美元,为欧洲的公共部门管理每年节省 2500 亿欧元,为全球个人位置数据服务提供商贡献 1000 亿美元,帮助美国零售业净利润增长 60%,帮助制造业在产品开发、组装等环节节省 50% 的成本等等。大数据体现的巨大经济价值,成功地获得了金融界和政界的亲睐。
2011 年 11 月,曾投资 Facebook、DropBox、Cloudera、沃尔玛等 200 多家公司的硅谷著名风投机构阿克塞尔合伙人公司(Accel Partners),宣布成立一个金额 1 亿美金的大数据基金,专注于投资两种类型的数据创业公司:建设包括存储、安全和管理在内的新型架基础构类公司,以及在基础架构之上进行如 BI、行业应用、移动应用等开发的公司。这样的投资方向让我们看到,大数据的爆发增长使得数据驱动、数据制胜成为必然,那些能够解决这个过程中因数据而产生的各种问题的创业公司,将在市场上得到自身价值的回馈。
今年 4 月,成立于 2003 年的数据软件公司 Splunk 在纳斯达克以 16 亿美元的市值上市,给大数据行业打了一管兴奋剂。Splunk 提供的软件产品可以用于监控、分析实时及历史的机器数据,这些数据可以是日志、配置文件、消息和告警等。Splunk 可以帮助企业的 IT 管理员集中监控分布部署在多个数据中心的成千上万台服务器,免去了错误发生时需要逐个排查纠错的苦恼。从创立至今,Splunk 的客户数量已接近 4000 家,财富 100 强的大部分成员皆为其客户,包括瑞士信贷、美国银行、Comcast、Salesforce、Zynga、LinkedIn、T-Mobile、Swisscom、Shutterfly、Heroku 以及美国劳工部和能源部等。
与此同时,ZF也将大数据列入了国家发展战略。今年 3 月底,奥巴马ZF宣布,白宫将投入 2 亿美金的研发费用来推动大数据技术的发展,其主要目标是为了让大数据技术更好的服务于科研、环境、生物医药、教育和国家安全领域。同时,奥巴马ZF对于投资的核心技术领域,也作出了明确的表示,将主要用来鼓励那些在数据采集、存储、管理、分析和共享等方面的技术研发。
综上所述,我们可以看到,大数据成为今天众人瞩目的焦点,是经过了在市场、技术、资金、以及ZF多方因素推动的结果。在文章的最后,我们列出三个关键词来总结大数据技术在实际应用中的特性,希望帮助读者对于大数据的应用有一个概览性的了解。
人才。人才是大数据技术能够真正发挥其价值的首要因素,也是最大的挑战。据麦肯锡调查,至 2018 年,美国市场将出现近 20 万深度大数据分析的专业人才、150 万能够进行数据解析的职业经理人的职位缺口。大数据专业人才不仅需要多年的数学知识积累,还需要有编程、业务知识等综合能力,是稀缺的复合型人才;而对于聘用企业来说,也很难有合适的职位适合此类人才。
用户为中心。大数据技术的应用,可以帮助企业从业务的整体设计角度,发展到针对客户的个性化服务,例如,零售企业对于过剩的库存会进行整体促销,如果对于用户购买数据进行分析,就可以针对用户的喜好进行个性化促销,同时也根据用户的购买行为对库存进行准确的调配,以减少浪费。
行业化。在基础的数据采集、存储及查询方面,各行业所通用的技术架构并无显著差异;但由于每个行业的属性及需求各异,数据分析将具有较强的行业性。例如,生物信息行业中,进行基因诊断所用到的比对数据库需要专业的生物知识来进行翻译,更为深入的致病基因锁定则需要用到一系列专业算法及实验设计;在能源行业,智能电网中的电力调度,则需要通过无数的传感器数据预测下一时刻电网中各节点的配电需求,这就要求系统对于实时海量数据的高效处理能力,以及预测算法的精准。
题图来自 greenbookblog
有人的地方就有江湖

19
langrenwanghu 发表于 2012-12-2 14:49:12
建立大数据中心个人认为要有以下条件
1、积累标准化的数据。没有全面的、历史的、高质量的数据,要想建立大数据是空谈;数据格式要一致,如出现数据标准不统一、数据要素不全、关键信息缺失、信息不一致等问题,这会给后期的大数据的应用带来挑战和困难。
2、各级领导要重视大数据中心的建立。随着各行业竞争日益激烈,产品和服务日趋同质化,企业要想一路驰骋在领先行业的康庄大道上,各级领导比较清楚自己的优势和劣势,通过建立大数据中心,企业可以多视角、宽口径和各层次方面了解自身的优劣。通过大数据中心这个工具,高层管理能够做出适合企业自身的战略规划。好的工具客观存在,如果没有引起各级领导的重视,它将永远沉默;若能充满利用大,那将大大增加企业的竞争力。
3、数据分析模型要适合企业的需要。企业在实际的数据分析过程中,要逐步建立适应于自己业务分析需要的模型。数据分析模型可以源自于一些著名的模型,但是这些模型在实际使用用中要得到不断的修正,修正后的模型可能是适合该企业,该行业。
已有 1 人评分论坛币 收起 理由
420948492 + 20 观点有启发

总评分: 论坛币 + 20   查看全部评分

20
420948492 发表于 2012-12-3 17:38:51
出版商:在大数据中的新角色
 在美国公共广播公司(PBS)Media Shift栏目近期的采访中,Movable Type Management公司创办人兼总裁杰森 亚西洛克(Jason Ashlock)讨论了关于出版商的角色变化的议题,并且他认为目前出版商们的创新实践并不够快。亚西洛克认为,我们正处在一个作者直接与受众面对面交互的时代,出版商们除了担当高质量图书的把关人的角色外,还需要成为维系这个关系的中间渠道和担当这个社区的监管人。

  类似地,《福布斯》杂志作家Suw Charman-Anderson最近也撰文主张,出版商们需要转变为零售商。成为零售商之后,出版商们将能够着手收集消费者数据信息,由此反过来他们也能够更好地为消费者们提供独特的附加价值和体验。O’Reilly出版公司的乔 维克特(Joe Wikert)是直接销售渠道观点的一名忠实拥护者。为了度过目前行业内所处的分化混乱期,出版商们确实需要转变为一个如亚西洛克所建议的强大的跨媒体公司和如Charman-Anderson所提议的零售商,但远不止是这样——应该要有更彻底的转变——出版商从根本上上需要转变为一个海量数据的领导者和数据情报公司,为的是更好地利用这些商业模式所带来的优势。他们需要学习如何从数据中过滤和分析出有意义的信息,这是与传统出版商们过去所做的有很大区别的一项业务,并且也不是一项简单的任务。正如亚当 弗兰克(Adam Frank)在NPR接受采访时所提出的观点:为了能充分利用海量数据和数据情报,出版商们则需要获得那些熟知数据的纷繁复杂和细微差别的专家们的帮助,这些专业人士知道如何“将无价值的信息和真实、有用的深入解读信息区分开来。”

  并且不仅仅是数据收集的过程需要掌握专门的知识——出版商们也需要知道如何正确地组织和构建他们所生产的数据信息。在Book in Browsers上的一份陈述报告中,劳拉 道森(Laura Dawson)指出,伴随着越来越多的图书以数字实体的形式呈现,出版商们将有必要更好地了解互联网,了解如何为搜索引擎准备可供检索的图书数据:

  “为什么是我们?为什么是图书行业?因为搜索引擎行业实际上并不在乎他们所呈现的结果是怎样。相较于其他东西,图书对于搜索引擎来说不再是重要的——它们需要的全都是数据。如果我们想要让搜索引擎工具为我们效劳,我们有必要对其深入探究。我们有必要知道它是如何检索的,什么样的形式对其来说是最有效的。正如书业在上个世纪90年代末非常努力地去了解连锁书店卖场和在卖场中图书的陈列方式,以及我们可以选择的合作模式等知识一样,现在我们也必须以同样的方式来认识我们这个新的商店——搜索引擎。”

  这个一开始听上去像是一个全然不同的业务,事实上它正是如此。或许对于如何顺利度过这个纷乱、快速变化的局面这样的问题,最好的解答恐怕就在于推行像麦克米伦所实施的策略,以及其他一些行业所在考虑的策略,这些行业甚至包括了开放数据行业,他们从创办(或收购)内部的初创公司到创建一项业务。

  出版商需要从现在起做些事情。亚马逊最近的收益报表很明显地表明了:“华尔街要为亚马逊的商业策略买单,这些策略实际上并不需要能带来利润,其只要能够提升销量即可。”

  克莱顿 克里斯坦森(Clayton Christensen)是哈佛商业学校的一名教授,同时也是一位作家。他在最近同尼曼新闻实验室的约书亚 本顿(Joshua Benton)的谈话中提出了所存在的根本性障碍。他在此探讨了努力求生存的新闻机构的商业模式,但他的观点也可以作为书业可借鉴的预警:

  “我认为我并不十分了解,并且仍然并不是是否清楚,事情是如何如此迅速地跌入悬崖的。在我看来,为什么事情会发生的原因是,即便在市场中已经变得日趋明显,但核心业务仍将持久存在,并且在未来很长一段时间内仍将是一个带来可观收益的一部分。之后,当这样的分化能够很好地解决你的顾客们的需求时,那么非常迅速的,就在顷刻间,你就会跌落悬崖。但我想我们都会这么说,但是令人沮丧的是,尽管我们的经理们都认识到了这样的分化正在形成——尽管他们很清楚现在发生了什么——但他们却什么也不做,因为这些数据在游戏结束之后就变得明晰了。他们真的有必要以一套理论为基础来行事,在我看来,这对于很多人来说都很难完成。”
有人的地方就有江湖

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-27 03:10