从事数据分析工作的人必须了解你使用的数据是怎么处理出来的,要了解数据库的结构和基本原理,同时如果条件充足的话,你还能有足够的能力从数据库里提取你需要的数据(比如使用SQL进行查询),这种提取数据分析原材料的能力是每个数据从业者必备的。此外,如果要想走的更远,还要能掌握一些编程能力,从而借住一些专业的数据分析工具,帮助你完成工作。
大数据具有采集过程价值未知、力争全面、即时、系统性并发的记录方式,以及主受体统一和大微观的特征,这些特征决定了大数据的价值发挥。
第一, 记录——情景辅助,操作基础
数据本身被记录下来,并非全部是为了长远的利益所用。很多记录其实发挥的作用是一种操作的基础,脱离了记录,后续的操作将难以进行。这点与人脑的作用有点相似。我们每个人在做一个即时操作的同时,大脑都会加以记录。然后依据这些记录快速决定下一步怎么做,即时的这些记录仅仅是一种情景辅助的作用。
数据记录
第二, 备份和监督——情景复原,责任追究
数据记录也是对以前操作过程的一个虚拟备份,记录了各自多方不同的操作过程及次序,乃至不同环节的具体操作内容。这样一种作用可以看作是记录本身最被认可的初始价值。历史上的各种备忘录,金融记录(例如会计),甚至包括历史都是出于这样一种动机来加以记录的。记录让操作的当时情景有了复原的可能性,哪怕只是一种并非完整的复原。这种复原除了纪念意义等的考虑外,还有一个重要的价值就是事后的责任追究,是一种奖惩的基础。这样一种作用看似很微小,但却是人类社会运作的基础。尤其是在连接时代的今天,不同主体之间的交互不断加剧,情景复原会让每个主体对自己的操作更为负责,让各种有效的连接成为一种可能。随着互联网与线下实际经济行为的日益融合,一次鼠标点击有可能代表着很大的利益转移,结合网络协议的操作记录成为了大家网上操作时承担对应责任的依据。
延伸案例:
淘宝网鼓励买家与卖家在旺旺上聊天的时候将聊天记录保存下来。在具体的投诉环节,相互之间的聊天记录可以作为一种证据去为自己辩护。而包括中间买方下单,支付款项,卖家发货,快递公司名称以及单号,甚至包括该单在快递过程中的状态,时间,甚至有些快递公司将具体快递员的姓名和电话也记录在内,最后签收的方式等都被详细的记录下来。所有这些记录发挥了一种情景复原以及事后追究责任的作用,从而确保了交易的正常进行。
旺旺记录
第三, 纠偏——情景指引,方向微调
一个系统在运行的过程中,有些时候也会出现一些跟平常不一样的差异所在。当这种差异所代表的数据通过极值等各种方式体现出来的时候,系统本身的原有平衡可能会被打破,内部各方面的环节或资源就有可能跟不上。这个时候适当的外力参与很有必要,以免出现系统崩溃的情况。
打破平衡
例如汽车上的自动定速巡航可以根据驾驶者设定的速度,汽车调配油门的大小进行不断的微调。当汽车速度超过预设速度多少的时候,就开始减小油门,当速度低于多少的时候,就开始加大油门。通过将当前的速度记录与标准设定的速度进行对比,通过一种模糊控制的方式来进行调整,从而发挥情景指引的作用。
一个企业的产供销系统,一个城市的交通系统,甚至一个国家的人口政策,资源利用等都可以通过这样一种方式来进行微调,从而确保系统的良性运行。
背景案例:中国的计划生育政策
中国的计划生育政策已经执行了很多年,而且也取得了一定的效果。但最近几年随着中国人口老龄化的加快,未来一些年社会对劳动力的需求会逐渐加强,劳动力短缺有可能成为中国的关键问题。
在这样一种情况下,基于各种人口数据的不断变化,适当地进行人口政策的调整已经变成一种必须。但具体怎样调整,则需要根据数据来说话。
第四, 预测——情景研究,系统优化
对未来的预测功能是目前业界对大数据最看重的价值之一。基于之前记录下来的各种数据的深入研究,发现其中的规律特征,从而进行系统优化,甚至升级。如果前面的纠偏只是一些相对较小的指引的话,那么基于预测的情景研究和系统优化,则是相对较大的变动。这种基于预测的价值实现对系统(包括个人、企业机构,也包括各种电子性工具)的长远运行来说价值重大,其决定了一个系统是否具有长期的成长性和演变能力。
一个主体(系统)不但要考虑即时的运行,以及下一步的正确操作,更需要考虑长远的运行可能。尤其是在竞争激烈的今天,各种企业机构之间的竞争非常残酷。如何基于以往的运行数据,对未来的运行模式进行预测,从而提前进行准备或者加以利用、调整,对很多企业机构其实是一种生死存亡的问题。这样一种情况同样适用于国家级别。正因为这一点,目前无论是在企业级别还是国家级别都开始研究、部署大数据。
延伸阅读:玛雅预言与人类地球的毁灭
著名的玛雅预言,尽管背后有着一定的天文知识基础,但在2011年除催生了一部很火的电影《2012》外,其实很多人的生活没有受到太大的影响。但现在基于人类地球上的各种能源存量,以及大气受污染、冰川融化的程度,我们确实可以推算出按照目前这种工业生产、生活的方式,人类在地球上可以存活的年数。《第三次工业革命》中对这方面有很深入的解释。基于精准预测,发现现有模式是死路一条后,人类就可以进行一些改变,这其实就是一种系统优化。
这种结合之前情景研究,不断进行系统优化的过程,将赋予系统生命力。而大数据就是其中的血液和神经系统。通过对大数据的深入挖掘,我们将会了解系统的不同机体是如何相互协调运作的,同样也可以通过对他们的了解去控制机体的下一个操作,甚至长远的维护和优化。从这个角度讲,基于网络的大数据可以看作是人类社会的神经中枢,因为有了网络和大数据人类社会才开始灵活起来,而不像以前那么死板。基于大数据,个体之间相互连接有了基础,相互的交互过程得到了简化,各种交易的成本减少很多。厂家等服务提供方可以基于大数据研发出更符合消费者需求的服务,机构内部的管理也更为细致,有了血液和神经系统的社会才真的有了生命。