1、1970年:人工智能时代 之前还属于人工智能时代,就是模拟人的思考方式,即,首先想到人是怎么做的,然后去模仿人,结果这条路走不通。人类之所以是人类,是能够思考、推理,当时有个很有名的计算机科学家明斯基,他们最早提出人工智能机器的概念,他们提了一个概念:“钢笔在盒子里和盒子在钢笔里(the pen was in the box;the box was inthe pen)。”前面这句话比较好理解,后面这句话就费解了,但是如果把pen理解成围栏,那么就可以理解成:盒子在围栏里面。这句话如果让计算机来模拟人,它就做不到这个理解的。因为判断这件事需要世界的知识,从小从生活中知道的,不是分析得到的。明斯基在计算机界很有名,因为这句话,美国计算机基金会对人工智能的投入就减少了。到70年代,发生了一个变化,大家不做这个事情了:人工智能。 2、1972-2000年:数据驱动时代
人是怎么飞起来的?人类为之努力了几千年,最早的认知就是看鸟怎么飞,模仿它。但是,最后人类做出飞机,不是学鸟,而是认知了空气动力学,也就是学习什么不必非要模仿它。所以,如果要让机器有智能,不是让机器按照人怎么想,于是推出了空气动力学派。
1972年发生一个事情:有一位教授从康奈尔大学离开,去IBM带薪休假工作,他做的一件事就是怎么让计算机聪明起来?于是他开始做了语音识别,语音识别和机器翻译是用数据驱动解决智能问题的最早范例。这位教授不是搞计算机科学的,他是基于数学研究通讯的,他认为语音交流的过程可以分解为:当你用语言把大脑中的概念表达出来(编码过程),然后通过空气传播(传输过程),然后你听到后进行理解(解码),这其实是一个通讯问题。 要解决这几个问题,第一要数据(为什么IBM能够做这件事情?因为它当时有超级计算机,有大量商业客户和数据),于是产生了“数据驱动”概念。运动这些数据就可以加以识别,从而实现了语音识别系统,最初的错误率30%,且只能解决100多个字,后来,经过升级,到22000字,误率从对30%降到10%,这就基本能看懂意思了。这给人们启发,原来不需要非得模拟人,还有另一条路可以走:数据驱动。 如果把中文翻译成英文,也是编码、传输、解码的过程。彼得·布朗受此启发,写了篇论文,作了一套翻译系统,但他失败了,因为它当时数据不足。双语资料当时只有圣经。后来,有了数据以后,证明这个方法能够做得很好。
3、云计算+大数据时代 需要多大的数据量才够支撑人工智能呢?当你的统计量大到足够的时候,人工智能的统计模型程度会极大接近人的智能(真实模型)。
盖洛普认为:“统计量大到一定程度就不用再大了。”盖洛普是一个统计学博士,罗斯福第二次当总统的时候,他做总统的预测,盖洛普发了2000份问卷,而文学文摘发放了20万份的问卷调查。盖洛普公布了统计结果:”我自己预测罗斯福会嬴,我可以肯定文学文摘预测罗斯福的竞争对手兰登会嬴,但是我的预测会成功。”果然,最后是罗斯福嬴了,因为文献文摘发问卷的时候偷懒,通过黄页获得电话,当时基本都是中产阶级及以上阶层的人拥有电话,因此采样没有代表性,而盖洛普根据教育程度等数据发放问卷。
盖洛普一直做预测,时准时不准,即使后来的样本在增加,也总有误差。概率的方法虽然好,但总是有些小概率覆盖不了。
到了2000年以后,发生了一个变化,互联网兴起使得数据量剧增,使你一下子可以得到好多数据。凡是拿到美国政府经费的项目,每年就要参加政府的评测,比比谁做得好,谁做得不好。你即使没拿这个钱,你也可以去挑战。2015年, NIST当时对英语翻译做了评测,然后用机器翻译的结果和人翻译的结果去比对,结果:谷歌排第一。第二名相差5%,都是同一个人写的代码,内核更新并不多,唯一差别在于谷歌的数据量多了一倍。当你增加一万倍的数据,量变就产生质变了。 所以,人的思维方式也发生改变了,以前花很多时间研究方法,现在通过数据就会解决。摩尔定律不仅诞生了半导体行业,这是过去50年的事情,未来,你所有的思维方式都要沿着这个方向改变:大数据。
四、什么是大数据?
大数据三特征:数据量足够大、多维度、数据的完备性。
大概两年前,百度知道公布的一个数据:通过7700万条与吃有关的问题里,挖掘出一些结论,反映中国不同地区的饮食习惯,比如香港叉烧、厦门蛋挞、福州佛跳墙、重庆麻辣等等,广东人常问什么东西不能吃,西北地区问什么东西能吃,广东云南问虫子能不能吃,西北问螃蟹能不能吃。这些杂乱无章的信息,可以看出很多好的数据。 当然,还可以看出不同人用了不同的计算机、手机,而且上网时间、生活习惯都不一样,所有问问题的时间也不一样,从这里可以知道年龄段、收入等隐私。这些数据属于历史上不同时期产生的,叠加起来分析不同地区的GDP差距和时间上生活习惯的变化。数据维度非常多,维度一多,数据就相对非常稀疏,所以需要更大的数据量。
盖洛普吃亏就吃亏在数据的完备性上面。Natesilver也做了一个总统精选的预测,它找遍了所有网络上的数据,然后对美国50个洲的投票倾向性做了预测,美国竞选不像法国,法国是一人一票,但是美国是只要一个洲里面的数据能够胜出,就可以这个洲把所有票拿走。历史上从来没有一个预测可以同时做50个洲的预测,但是它获得了100%准确性。为什么他能做到?因为数据的完备性。如果你有本事统计到每个人投票前一天的想法,你的预测就会更加精准,以前我们想象不到这个事情,但是现在你有可能做到,所以,今天,我们的整个思维都要改。 BIG DATA,WHY NOT LARGE DATA?用前者的“BIG”不仅仅是强调数据量大,而是强调思维方式。
数据的完备性很可怕,回顾1996年,卡斯帕罗夫大师第一盘棋战胜IBM深蓝计算机,但是后面几盘计算机嬴了,因为它具备了数据的完备性,它把卡斯帕罗夫过去的棋局数据都收集起来了,包括全世界其它高手的历史数据记录都收集了。我们现在正在把很多智能的问题变成大数据的问题。 真正能够取代人的机器人,不是像人的,而是成千上万台的机器在运行聪明的软件。记住大数据三要素:数据量足够大、多维度、数据的完备性
为什么今天的人类正处在一个拐点上?为什么大数据在这个节点上爆发? 首先要归功于摩尔定律;其次,是移动互联网的起来,它和PC非常大的差别在哪里?互联网最早是机器和机器的联网,你离开电脑之后,你就离开互联网了,你坐在电脑前,才重新联上互联网,而移动互联网时代是你时刻联网,根本没有整的时间,全部是碎片时间,因为这样的特性,使得数据的完备性有可能获得。
还有就是传感器技术的发达,数据增长的速度已经超过互联网,也就是说,大数据的增长快于摩尔定律带来的增长。你如果今天创业,你不能做到移动是唯一的,也要做到移动优先。数据的收集不仅是传感器,还有摄像头,上海全市有几万个摄像头,未来市政府还打算扩大到10倍,几十万个。过去你是用密码认证,现在是用摄像头认证,以前摄像头是要花钱的,现在摄像头是可以送给你的。大数据的完备性在于它的多纬度,除了传感器、摄像头,还有很多手段和技术。
从现有的公司中,怎样比较能够处于有利的位置呢?是拥有和分析大数据能力的公司。未来所有的公司都是大数据公司。这根本不是几亿、几十亿的市场,这是几万亿的市场,孙正义说:所有的产业都要数字化。不同的时代一定由不同的公司来引领,PC是微软和因特尔引领,互联网时代是雅虎、谷哥、BAT等,大数据时代不是由传统的互联网公司引领的。在未来,大数据非常重要,未来,所有的公司都是数据公司,如果在50年前说计算机无所不在,没有人信,但是今天就是这样。
中国有一家做风能设备的公司,它的叶片和直升机的螺旋桨差不多,它的使用寿命是10-15年,在工业时代,最重要留一个余量,这个余量是从平均值得到的,所有10-15年的寿命测算就是余量和平均值,这是工业时代的概念,因为你没办法知道某一款产品具体的寿命点是什么时候。现在安装了传感器,就能够监控每一片叶片,可以具体到每一片叶片知道什么时候可以换。以前利润率也不高,被装到哪里也不知道,但是现在有大数据之后,就可以无线联网,每一台风力发电机具体的运行情况、卖到了哪里、当地情况风力如何,等等,都可以知道,这样做市场就特别好做了,能够清楚准确地判断哪个市场风力特别多。 在过去,很多想都不敢想的事情,今天都可以去实现。奢侈品牌他们怎么设计专卖店呢?它们对于怎么摆放产品都非常讲究,比如在北京开一家专卖店,它们用1:1的模型做了4个,然后根据老板的经验来考虑。产品摆完之后好与不好,没人知道,完全凭经验来,Prada做了什么事情呢?在店面和试衣间加了一个传感器,就可以知道多少人试衣,如果很多人试完不买,那就是看上了,但衣服某些细节可能有问题。 Target,类似于沃尔玛,它不要光知道卖了多少,也要知道谁在买,然后可以汇总出不同阶段用户的购买习惯,预计你处在什么阶段,下一阶段可能需要什么,针对性给购物建议。美国人每个月底信用卡都要账单,所以购物后会留发票,然后对账,但是发票多的时候还是麻烦,它就说我寄给你邮箱核对。用户在不同的阶段买不一样的东西,比如孕妇测试是否怀孕,是否开始买婴儿用品,然后出生后买奶粉等,再根据你的需要推送优惠券。后来有一个男客户打电话来,很生气,说你们怎么寄来婴儿用品,后来商场就安慰他,一周后,商场打电话跟踪咨询后续情况,但是男客户说,他女儿真的怀孕了。
五、大数据的关键技术 为什么未来所有的公司都是数据公司呢?在大数据公司,我们能做什么,或者需要做什么呢?
1、数据的收集(无目的性、非结构化) 谷歌去收购了NEST,后者是一款智能家居产品软件,它采集了家庭行为数据等等,数据采集很重要,它一定要无目的性和非结构化,在不知不觉中采集下来。刻意收集的数据可能是不准的,比如问你喜吃什么,可能不好意思说你喜欢吃臭豆腐。一年前我和罗辑思维的罗振宇聊天,罗振宇说在机顶盒出来之前,央视是如何了解收视率的呢?就是发一些调查问卷,发现所谓很多主持人的收视率都被高估了,后来有了机顶盒的统计,就省力很多。 2、数据的存储 3、数据的表示、检索和随机访问 以前我们处理的数据:文本,很容易索引,数据量大了之后怎么检索,如图片、DNA片断? 4、数据的使用和挖掘
|