华为内部狂转好文，有关大数据，看这一篇就够了！ - JMP论坛

0关注
22粉丝

教授

1%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 3130 个
通用积分: 1.0061
学术水平: 59 点
热心指数: 50 点
信用等级: 44 点
经验: 12628 点
帖子: 467
精华: 3
在线时间: 90 小时
注册时间: 2015-3-13
最后登录: 2016-8-29

楼主

lianqihappy 发表于 2016-4-5 20:21:30 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

   一、大数据的初步理解

      似乎一夜之间，大数据（Big Data）变成一个IT行业中最时髦的词汇。
      首先，大数据不是什么完完全全的新生事物，Google的搜索服务就是一个典型的大数据运用，根据客户的需求，Google实时从全球海量的数字资产（或数字垃圾）中快速找出最可能的答案，呈现给你，就是一个最典型的大数据服务。只不过过去这样规模的数据量处理和有商业价值的应用太少，在IT行业没有形成成型的概念。现在随着全球数字化、网络宽带化、互联网应用于各行各业，累积的数据量越来越大，越来越多企业、行业和国家发现，可以利用类似的技术更好地服务客户、发现新商业机会、扩大新市场以及提升效率，才逐步形成大数据这个概念。
         有一个有趣的故事是关于奢侈品营销的。PRADA在纽约的旗舰店中每件衣服上都有RFID码。每当一个顾客拿起一件PRADA进试衣间，RFID会被自动识别。同时，数据会传至PRADA总部。每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间停留多长时间，数据都被存储起来加以分析。如果有一件衣服销量很低，以往的作法是直接干掉。但如果RFID传回的数据显示这件衣服虽然销量低，但进试衣间的次数多。那就能另外说明一些问题。也许这件衣服的下场就会截然不同，也许在某个细节的微小改变就会重新创造出一件非常流行的产品。
      还有一个是关于中国粮食统计的故事。中国的粮食统计是一个老大难的问题。中国的统计，虽然有组织、有流程、有法律，但中央的统计人员依靠省统计人员，省靠市，市靠县，县靠镇，镇靠村，最后真正干活或上报的是基层兼职的调查人员，由于众所周知的KPI考核导向的原因，层层加码，几乎没有人相信这个调查数据，而其中国家统计局的人是最不信的。在前两年北京的一个会议上，原国家统计局总经济师姚景源向我们讲述了他们是如何做的。他们采用遥感卫星，通过图像识别，把中国所有的耕地标识、计算出来，然后把中国的耕地网格化，对每个网格的耕地抽样进行跟踪、调查和统计，然后按照统计学的原理，计算（或者说估算）出中国整体的整体粮食数据。这种做法是典型采用大数据建模的方法，打破传统流程和组织，直接获得最终的结果。
      单个的数据并没有价值，但越来越多的数据累加，量变就会引起质变，就好像一个人的意见并不重要，但1千人、1万人的意见就比较重要，上百万人就足以掀起巨大的波澜，上亿人足以改变一切。
      因此，海量数据的产生、获取、挖掘及整合，使之展现出巨大的商业价值，这就是我理解的大数据。在互联网对一切重构的今天，这些问题都不是问题。因为，我认为大数据是互联网深入发展的下一波应用，是互联网发展的自然延伸。目前，可以说大数据的发展到了一个临界点，因此才成为IT行业中最热门的词汇之一。

      二、大数据将重构很多行业的商业思维和商业模式

      我想以对未来汽车行业的狂野想象来展开这个题目。
      在人的一生中，汽车是一项巨大的投资。以一部30万车、七年换车周期来算，每年折旧费4万多（这里还不算资金成本），加上停车、保险、油、维修、保养等各项费用，每年耗费应在6万左右。汽车产业也是一个很长产业链的龙头产业，这个方面只有房地产可以媲美。
      但同时，汽车产业链是一个低效率、变化慢的产业。汽车一直以来就是四个轮子、一个方向盘、两排沙发（李书福语）。这么一个昂贵的东西，围绕车产生的数据却少的可怜，行业产业链之间几无任何数据传递。
      我们在这里狂野地想象一番，如果将汽车全面数字化，都大数据了，会产生什么结果？
      有些人说，汽车数字化，不就是加个MBB模块吗？不，这太小儿科了。在我理想中，数字化意味着汽车可以随时联上互联网，意味着汽车是一个大型计算系统加上传统的轮子、方向盘和沙发，意味着可以数字化导航、自动驾驶，意味着你和汽车相关的每一个行动都数字化，包括每一次维修、每一次驾驶路线、每一次事故的录像、每一天汽车关键部件的状态，甚至你的每一个驾驶习惯（如每一次的刹车和加速）都记录在案。这样，你的车每月甚至每周都可能产生T比特的数据。
      好了，我们假设这些数据都可以存储并分享给相关的政府、行业和企业。这里不讨论隐私问题带来的影响，假设在隐私保护的前提下，数据可以自由分享。
      那么，保险公司会怎么做呢？保险公司把你的所有数据拿过去建模分析，发现几个重要的事实：一是你开车主要只是上下班，南山到坂田这条线路是非繁华路线，红绿灯很少，这条路线过去一年统计的事故率很低；你的车况（车的使用年限、车型）好，此车型在全深圳也是车祸率较低；甚至统计你的驾驶习惯，加油平均，临时刹车少，超车少，和周围车保持了应有的车距，驾驶习惯好。最后结论是你车型好，车况好，驾驶习惯好，常走的线路事故率低，过去一年也没有出过车祸，因此可以给予更大幅度的优惠折扣。这样保险公司就完全重构了它的商业模式了。在没有大数据支撑之前，保险公司只把车险客户做了简单的分类，一共分为四种客户，第一种是连续两年没有出车祸的，第二种过去一年没有出车祸，第三种过去一年出了一次车祸，第四种是过去一年出了两次及以上车祸的，就四种类型。这种简单粗暴的分类，就好像女人找老公，仅把男人分为没有结过婚的、结过一次婚的、结过二次婚的、结过三次及以上婚的四种男人，就敢嫁人一样。在大数据的支持下，保险公司可以真正以客户为中心，把客户分为成千上万种，每个客户都有个性化的解决方案，这样保险公司经营就完全不同，对于风险低的客户敢于大胆折扣，对于风险高的客户报高价甚至拒绝，一般的保险公司就完全难以和这样的保险公司竞争了。拥有大数据并使用大数据的保险公司比传统公司将拥有压倒性的竞争优势，大数据将成为保险公司最核心的竞争力，因为保险就是一个基于概率评估的生意，大数据对于准确评估概率毫无疑问是最有利的武器，而且简直是量身定做的武器。
      在大数据的支持下，4S店的服务也完全不同了。车况信息会定期传递到4S店，4S店会根据情况及时提醒车主及时保养和维修，特别是对于可能危及安全的问题，在客户同意下甚至会采取远程干预措施，同时还可以提前备货，车主一到4S店就可以维修而不用等待。
      对于驾驶者来说，不想开车的时候，在大数据和人工智能的支持下，车辆可以自动驾驶，并且对于你经常开的线路可以自学习自优化。谷歌的自动驾驶汽车，为了对周围环境作出预测，每秒钟要收集差不多1GB的数据，没有大数据的支持，自动驾驶是不可想象的；在和周围车辆过近的时候，会及时提醒车主避让；上下班的时候，会根据实时大数据情况，对于你经常开车的线路予以提醒，绕开拥堵点，帮你选择最合适的线路；在出现紧急状况的时候，比如爆胎，自动驾驶系统将自动接管，提高安全性（人一辈子可以难以碰到一次爆胎，人在紧急时的反应往往是灾难性的，只会更糟）；到城市中心，寻找车位是一件很麻烦的事情，但未来你可以到了商场门口后，让汽车自己去找停车位，等想要回程的时候，提前通知让汽车自己开过来接。
      车辆是城市最大最活跃的移动物体，是拥堵的来源，也是最大的污染来源之一。数字化的车辆、大数据应用将带来很多的改变。红绿灯可以自动优化，根据不同道路的拥堵情况自动进行调整，甚至在很多地方可以取消红绿灯；城市停车场也可以大幅度优化，根据大数据的情况优化城市停车位的设计，如果配合车辆的自动驾驶功能，停车场可以革命性演变，可以设计专门为自动驾驶车辆的停车楼，地下、地上楼层可以高达几十层，停车楼层可以更矮，只要能高于车高度即可（或者把车竖起来停），这样将对城市规划产生巨大的影响；在出现紧急情况，如前方塌方的时候，可以第一时间通知周围车辆（尤其是开往塌方道路的车辆）；现在的燃油税也可以发生革命性变化，可以真正根据车辆的行驶路程，甚至根据汽车的排污量来收费，排污量少的车甚至可以搞碳交易，卖排放量卖给高油耗的车；政府还可以每年公布各类车型的实际排污量、税款、安全性等指标，鼓励民众买更节能、更安全的车。
      电子商务和快递业也可能发生巨大的变化。运快递的车都可以自动驾驶，不用赶白天的拥堵的道路，晚上半夜开，在你家门口设计自动接收箱，通过密码开启自动投递进去，就好像过去报童投报一样。
      这么想象下来，我认为，汽车数字化、互联网化、大数据应用、人工智能，将对汽车业及相关的长长的产业链产生难以想象的巨大变化和产业革命，具有无限的想象空间，可能完全被重构。当然，要实现我所描述的场景，估计至少50年、100年之后的事情了，估计我这辈子是看不到的。
      这里，我想系统回顾一下工业文明的发展历程，首先是物理世界的工业文明，典型是蒸汽机的发明，使汽车、轮船进入生活；然后是数字世界的工业文明，就是IT技术的使用，使PC及各种电子产品进入生活，以及企业数字化系统的建立，使沃尔玛这样的巨型企业产生成为可能；下一步就是物理世界和数字世界的融合，这也就是业界热炒的“工业互联网”、“IT 3.0”，而这里面除了数字技术在传统行业的使用（这个事实上已经在广泛使用）、电子商务在渠道的广泛推行，更重要的就是大数据的产生及挖掘、使用，使企业在管理方式、市场机会挖掘、产品设计、营销、服务、商业模式等发生巨大的变化，这种巨大的变化带来了很多行业的革命性变局，也就是颠覆与改造。这种变化在所谓的低效率的大行业将最为明显与直接。这些所谓的的低效率大行业，就是垄断特征明显、产业规模大、产业链长、历史悠久但长时间变化少、IT应用水平低的行业，如汽车、金融、保险、医疗等。
   在这个章节的最后，我想总结一下自己对大数据的看法。
      第一，大数据使企业真正有能力从以自我为中心改变为以客户为中心。企业是为客户而生，目的是为股东获得利润。只有服务好客户，才能获得利润。但过去，很多企业是没有能力做到以客户为中心的，原因就是相应客户的信息量不大，挖掘不够，系统也不支持，目前的保险业就是一个典型。大数据的使用能够使对企业的经营对象从客户的粗略归纳（就是所谓提炼归纳的“客户群”）还原成一个个活生生的客户，这样经营就有针对性，对客户的服务就更好，投资效率就更高。
      第二，大数据一定程度上将颠覆了企业的传统管理方式。现代企业的管理方式是来源于对军队的模仿，依赖于层层级级的组织和严格的流程，依赖信息的层层汇集、收敛来制定正确的决策，再通过决策在组织的传递与分解，以及流程的规范，确保决策得到贯彻，确保每一次经营活动都有质量保证，也确保一定程度上对风险的规避。过去这是一种有用而笨拙的方式。在大数据时代，我们可能重构企业的管理方式，通过大数据的分析与挖掘，大量的业务本身就可以自决策，不必要依靠膨大的组织和复杂的流程。大家都是基于大数据来决策，都是依赖于既定的规则来决策，是高高在上的CEO决策，还是一线人员决策，本身并无大的区别，那么企业是否还需要如此多层级的组织和复杂的流程呢？
      第三，大数据另外一个重大的作用是改变了商业逻辑，提供了从其他视角直达答案的可能性。现在人的思考或者是企业的决策，事实上都是一种逻辑的力量在主导起作用。我们去调研，去收集数据，去进行归纳总结，最后形成自己的推断和决策意见，这是一个观察、思考、推理、决策的商业逻辑过程。人和组织的逻辑形成是需要大量的学习、培训与实践，代价是非常巨大的。但是否这是唯一的道路呢？大数据给了我们其他的选择，就是利用数据的力量，直接获得答案。就好像我们学习数学，小时候学九九乘法表，中学学几何，大学还学微积分，碰到一道难题，我们是利用了多年学习沉淀的经验来努力求解，但我们还有一种方法，在网上直接搜索是不是有这样的题目，如果有，直接抄答案就好了。很多人就会批评说，这是抄袭，是作弊。但我们为什么要学习啊？不就是为了解决问题嘛。如果我任何时候都可以搜索到答案，都可以用最省力的方法找到最佳答案，这样的搜索难道不可以是一条光明大道吗？换句话说，为了得到“是什么”，我们不一定要理解“为什么”。我们不是否定逻辑的力量，但是至少我们有一种新的巨大力量可以依赖，这就是未来大数据的力量。

      三、新智慧生物的诞生？
   下面的想象就更狂野了，真正要实现，估计至少是我们十辈子或者一百辈子以后的事情。那时候，我们已经是祖宗了哈。大家就当科幻小说来看好了。
      从最近一位微软副总裁的演讲说起。瑞克·拉希德（Rick Rashid）是微软研究院的高级副总裁，有一天，他在中国的天津迈上讲台，面对2000名研究者和学生，要发表演讲，他非常非常紧张。这么紧张是有原因的。问题在于，他不会讲中文，而他的翻译水平以前非常糟糕，似乎注定了这次的尴尬。
      “我们希望，几年之内，我们能够打破人们之间的语言障碍，”这位微软研究院的高级副总裁对听众们说。令人紧张的两秒钟停顿之后，翻译的声音从扩音器里传了出来。拉希德继续说：“我个人相信，这会让世界变得更加美好。”停顿，然后又是中文翻译。
      他笑了。听众对他的每一句话都报以掌声。有些人甚至流下了眼泪。这种看上去似乎过于热情的反应是可以理解的：拉希德的翻译太不容易了。每句话都被理解，并被翻译得天衣无缝。令人印象最深的一点在于，这位翻译并非人类。
      这就是自然语言的机器翻译，也是长期以来人工智能研究的一个重要体现。人工智能从过去到未来都有清晰而巨大的商业前景，是以前IT业的热点，其热度一点不亚于现在的“互联网”和“大数据”。但是，人类过去在推进人工智能的研究遇到了巨大的障碍，最后几乎绝望。
      当时人工智能就是模拟人的智能思考方式来构筑机器智能。以机器翻译来说，语言学家和语言专家必须不辞劳苦地编撰大型词典和与语法、句法、语义学有关的规则，数十万词汇构成词库，语法规则高达数万条，考虑各种情景、各种语境，模拟人类翻译，计算机专家再构建复杂的程序。最后发现人类语言实在是太复杂了，穷举式的做法根本达不到最基本的翻译质量。这条道路最后的结果是，1960年代后人工智能的技术研发停滞不前数年后，科学家痛苦地发现以“模拟人脑”、“重建人脑”的方式来定义人工智能走入一条死胡同，这导致后来几乎所有的人工智能项目都进入了冷宫。
      后来有人就想，机器为什么要向人学习逻辑呢，又难学又学不好，机器本身最强大的是计算能力和数据处理能力，为什么不扬长避短、另走一条道路呢？这条道路就是IBM“深蓝”走过的道路。1997年5月11日，国际象棋大师卡斯帕罗夫在和IBM公司开发的计算机“深蓝”进行对弈时宣布失败，计算机“深蓝”因此赢得了这场意义深远的“人机对抗”。 “深蓝”不是靠逻辑、不靠所谓的人工智能取胜的，就是靠超强的计算能力取胜：思考不过你，但是算死你。
      类似的逻辑在后续也用到了机器翻译上。谷歌、微软和IBM都走上了这条道路。就是主要采用匹配法，同时结合机器学习，依赖于海量的数据及其相关相关统计信息，不管语法和规则，将原文与互联网上的翻译数据对比，找到最相近、引用最频繁的翻译结果做为输出。也就是利用大数据以及机器学习技术来实现机器翻译。现有的数据量越是庞大，那么这个系统就能越好地运行，这也正是为何新的机器翻译只有在互联网出现以后才有可能重新取得突破性进展的原因所在。
      因此，目前这些公司机器翻译团队中，有不少计算机科学家，但却连一个纯粹的语言学家也没有，只要擅长数学和统计学，然后又会编程，那就可以了。

四、结束语

我最后想说的是，我们对未来的认知，主要是基于常识和对未来的想象。根据统计，现在《纽约时报》一周的信息量比18世纪一个人一生所收到的资讯量更大，现在18个月产生的信息比过去5000年的总和更多，现在我家一台5000元电脑的计算能力比我刚入大学时全校的计算能力更强大。科技的进步在很多的时候总会超出我们的想象，试想如果未来我们一个人拥有的电脑设备超过现在全球现在计算能力的总和，一个人产生的数据量超过现在全球数据量的总和，甚至你的宠物小狗产生的信息量都超过现在全球数据量的总和，世界会发生什么呢？那就取决于你的想象力了。
　　对于未来，你想象到什么了呢？

分享到：

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏8 回帖

关键词：大数据 Big data Google prada 国家统计局互联网应用 Google IT行业想象力华为

[实际应用] 华为内部狂转好文，有关大数据，看这一篇就够了！ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[实际应用] 华为内部狂转好文，有关大数据，看这一篇就够了！ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群