家在成都,最近想学习一下大数据分析,查了下,发现有家叫科多大数据的培训机构,说是工信部认证的,然后开的数据分析课程是和CDA合作,想问一下靠谱吗?拜托拜托……
大数据就是数据“大”,海量数据一定有海量信息,海量信息一定有海量价值。
时至今日,诸多“打酱油”砖家,依然遵循着上述逻辑来忽悠众人,于是乎什么互联网~物联网~数联网,数据沉淀、智慧城市……感觉只要数据采集、存储的量级上至TB以上,然后互相联结,就已经是“大数据”了,必然可以挖掘海量数据的海量价值了!
理想再丰满,现场也骨感!其一,依据《中国大数据白皮书2015》的定义,大数据特征有4V,即高量级、低时滞、多维度、高价值。换言之,数据的量级虽然是一个重要指标,但并不是惟一重要的指标,而且“大”也只是个相对指标,记得有个老外对“大数据”的定义是:那些远远超出人们数据处理能力的才是“大”。而当人们数据处理能力增长时,原来的“大”就变成“小”了。
其二,大数据本身并不必然孕含海量信息,譬如弄出数十亿条记录来,然后每条都是111111,或者00000,大则大矣,信息量却很少,因为其中的知识很简单,香农将“信息”定义为出乎意料(即不确定性),将一次投币所包含的不确定性定义为1Bit,是很有智慧的!简单堆砌砖头并不会自动积累知识、形成智慧!
其三,数据挖掘的一个定义是:基于数据库的非平凡、探索性的知识发现。由于视频、图片、文本、空间等非结构性数据的迅速增长,这个定义需要修订,但试错、探索是其中的关键词,而对数据使用者的价值为其依归。这里所说的价值,我的体会是:
1.高价值总量,低价值密度。没有金刚钻,不揽磁器活,没有发现敏锐发现事物联系的超维思维与高效处理海量数据的优秀算法与软硬件设施,没有科学规范的数据标准与主动式数据治理,有价值的信息是不会自己跳到碗里来的!
2.同一数据,对不同用户价值可以不同。既是因为上述技术原因,更是因为不同用户的需求不同。对于极度饥饿的人,一个馒头胜过世上一切;对于赌徒,高利贷依然可以饮鸠止渴!
3.相关性并不是因果性,试错是大数据分析的必需品,单纯追求精准会降低大数据分析的质效。
(结语)上面自己体悟出的一些教训,言多必失,可能讲得太多、做得太少本就是一大误区吧,先就此打住!人与世界是一永恒主题,大部分数据都与人有关,要通过大数据解决人的问题才是长久之道!立此存照,以备后查,共同进化!