请选择 进入手机版 | 继续访问电脑版
楼主: 698348
2010 4

[行业动态] 【数据分析师经验】大数据与统计思维的讨论 [推广有奖]

副教授

38%

还不是VIP/贵宾

-

威望
0
论坛币
53 个
通用积分
6.5568
学术水平
67 点
热心指数
82 点
信用等级
30 点
经验
8631 点
帖子
451
精华
1
在线时间
155 小时
注册时间
2017-2-7
最后登录
2021-1-29

698348 在职认证  发表于 2017-5-27 20:27:24 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

大数据与统计思维的讨论



我们要改变统计思维,是大数据时代的必然要求。否则,统计学科就有可能被大数据的潮流所吞没,至少会被边缘化,失去一次重要的参与推动历史变革的机遇。当然,统计思维的变化应该以一个永恒不变的主题为前提,那就是通过数据分析去揭示事物的真相,这个真相就是事物的生存规律、联系规律和发展规律。也就是说,数据分析要以数据背后的数据去还原事物的本来面目,以达到求真的目的。如果说,我们原来限于各种条件只能根据有限的样本数据去实现这个目的,那么现在我们则可以在很多方面借助大数据去实现这个目的,关键就看我们开展数据分析的能力有多大,或者说利用大数据、从一切数据中提取有价值信息的能力有多大———因为大数据无疑增加了统计分析的难度,而这又首先取决于我们统计思维能否适应大数据时代的变化。正如迈尔- 舍恩伯格所说: 大数据发展的核心动力就是人类测量、记录和分析世界的渴望。

100474705.jpg


那么,统计思维应该发生怎样的变化? 笔者认为主要要有如下三大变化:

( 一) 认识数据的思维要变化

前面已经提到,与传统数据相比,大数据不仅体量大、变化快,而且其来源、类型和量化方式都发生了根本性的变化,使得数据杂乱、多样、不规整。

首先,从来源上看,传统的数据收集因为具有很强的针对性,因此数据的提供者大多是确定的,身份特征是可识别的,有的还可以进行事后核对。但大数据通常来源于物联网,不是为了特定的数据收集目的而产生,而是人们一切可记录的信号( 当然,任何信号的产生都有其目的,但它们是发散的) ,并且身份识别十分困难。从某种意义上讲,大数据来源的微观基础是很难追溯的。

其次,从类型上看,传统数据基本上是结构型数据,即定量数据加上少量专门设计的定性数据,格式化,有标准,可以用常规的统计指标或统计图表加以表现。但大数据更多的是非结构型数据、半结构型数据或异构数据,包括了一切可记录、可存储的信号,多样化、无标准、难以用传统的统计指标或统计图表加以表现。同时,不同的网络信息系统有不同的数据识别方式,相互之间也没用统一的数据分类标准。再者,现在有的数据库是非关系型的数据库,不需要预先设定记录结构即可自动包容大量各种各样的数据。

第三,从量化方式上看,传统数据的量化处理已经有一整套较为完整的方式与过程,量化的结果可直接用于各种运算与分析。但大数据中大量的非结构化数据如何量化( 结构化) 、如何从中提取信息、如何与结构化数据对接是一个崭新的问题。正如Franks 所说: “几乎没有哪种分析过程能够直接对非结构化数据进行分析,也无法直接从非结构化的数据中得出结论。”更为重要的是,“量化”的含义恐怕也不一样了,即此“量化”不一定等同于彼“量化”,量化结果的表现形式自然也不相同。显然,我们不能套用已有的方式去量化非结构化数据。

可以说,大数据是杂乱、不规整、良莠不齐的,但我们不能因此而回避它、拒绝它,只能接纳它、包容它。我们需要将统计研究的对象范围从结构型数据扩展到一切数据,需要重新思考数据的定义和分类方法,并以此为基础发展和创新统计分析方法。从某种意义上讲,没有无用的数据,只有未被欣赏的数据,关键是我们从哪个角度看数据。

162935febkeikg9q06kle2.jpg


( 二) 收集数据的思维要变化

收集数据是开展统计分析的前提,“没有黏土,如何做砖?”以往,收集统计数据的思维是先确定统计分析研究的目的,然后需要什么数据就收集什么数据,所以要精心设计调查方案,严格执行每个流程,但往往是投入大而数据量有限。现在,我们拥有了大数据,就等于拥有了超大量可选择的数据———备选“黏土”的体量与种类都极大地增加了,所要做的最重要的工作就是比较与选择,因此我们的思维应该是如何充分利用大数据,凡是大数据源中能找到的数据就不再需要进行专门的调查。

但是,由于大数据来源与种类的多样性,以及数据增加的快速性,我们在享受数据的丰富性的同时也不得不面临这样一些困境: 存储能力够不够,分析能力够不够( 是否及时、充分) ,如何甄别数据的真伪,如何选择关联物,如何提炼和利用数据,如何确定分析节点? 现在 TB 级的数据库已经很多,PB 级的数据库也不少见,以后还会出现 EB、甚至 ZB、YB级的数据库。今天的大数据,明天就不再是大数据。这样一来,电子存储能力能否跟得上数据增加的速度就成为首要的问题。如果让数据库自动更新就有可能失去一些宝贵的数据信息,而到了一定级别以后扩充存储容量或对数据进行拷贝,其代价是十分巨大的,因此我们不得不对数据进行分类、筛选,有针对地删除那些垃圾数据、不重要或次重要的数据。如果说以前有针对地获得数据叫做收集,那么今后有选择地删除数据就意味着收集。也就是说,大数据时代的数据收集将更多的是从已有的超大量数据中进行再过滤、再选择。因此,我们要做好丢弃一部分数据的准备。

当然,并不是任何数据都可以从现成的大数据中获得,这里存在一个针对性、安全性和成本比较问题。因此,我们既要继续采用传统的方式方法去收集特定需要的数据,又要善于利用现代网络信息技术和各种数据源去收集一切相关的数据,并善于从大数据中进行再过滤、再选择。问题在于什么是无用的或不重要的数据? 该如何过滤与选择数据? 这就需要对已经存在的数据进行重要性分析、真伪别和关联物定位。

此外,大的数据库可能需要将信息分散在不同的硬盘或电脑上,这样一来,在不能同步更新数据信息的情况下如何选择、调用和匹配数据又是一个问题。因此从某种意义上讲,从大数据中收集数据就是识别、整理、提炼、汲取( 删除) 、分配和存储元数据的过程。

162958wqajz55awisjqbj8.jpg


( 三) 分析数据的思维要变化

基于上述两个变化,数据分析的思维必然要跟着变化,那就是要主动利用现代信息技术与各种软件工具从大数据中挖掘出有价值的信息,并在这个过程中丰富和发展统计分析方法。

关于数据分析思维的变化,特别需要强调三点:

第一,传统的统计分析过程是“定性—定量—再定性”,第一个定性是为了找准定量分析的方向,主要靠经验判断,这在数据短缺、分析运算手段有限的情况下很重要。现在我们是在大数据中找矿,直接依赖数据分析做出判断,因此基础性的工作就是找到“定量的回应”,这在存储能力大为增强、分析技术与分析速度大为提高的今天,探测“定量的回应”变得越来越简单,所要做的就是直接从各种“定量的回应”中找出那些真正的、重要的数量特征和数量关系,得出可以作为判断或决策依据的结论,因此统计分析的过程可以简化为“定量—定性”,从而大大提高得到新的定性结论的可能性。

第二,传统的统计实证分析,一般都要先根据研究目的提出某种假设,然后通过数据的收集与分析去验证该假设是否成立,其分析思路是“假设—验证”,但这种验证往往由于受到假设的局限、指标选择的失当、所需数据的缺失而得不出真正的结论。特别是,一旦假设本身不科学、不符合实际,那么分析结论就毫无用处、甚至扭曲事实真相。事实证明,很多这样的实证分析纯粹是为了凑合假设。现在,我们有了大数据,可以不受任何假设的限制而从中去寻找关系、发现规律,然后再加以总结、形成结论。也就是说,分析的思路是“发现—总结”。这将极大地丰富统计分析的资源与空间,有助于发现更多意外的“发现”。

第三,传统的统计推断分析,通常是基于分布理论,以一定的概率为保证,根据样本特征去推断总体特征,其逻辑关系是“分布理论—概率保证—总体推断”,推断的评判标准与具体样本无关,但推断是否正确却取决于样本的好坏。现在,大数据强调的是全体数据,总体特征不再需要根据分布理论进行推断,只需进行计数或计量处理即可。不仅如此,还可以根据全面数据和实际分布来判断其中出现某类情况的可能性有多大,其逻辑关系变成了“实际分布—总体特征—概率判断”,也即概率不再是事先预设,而是基于实际分布得出的判断。按照迈尔-舍恩伯格的观点,这个概率判断就可用于预测了。

伴随着上述三大变化,统计分析评价的标准又该如何变化? 传统统计分析的评价标准无非两个方面,一是可靠性评价,二是有效性评价,而这两种评价都因抽样而生。所谓可靠性评价是指用样本去推断总体有多大的把握程度,是以概率来度量的———有时表现为置信水平,有时表现为显著性水平。特别是在假设检验和模型拟合度评价中,显著性水平怎么定是一个难题,一直存在争议,因为所参照的分布类型不同其统计量就不同,显著性评价的临界值就不同,而临界值又与显著性水平的高低直接相关。然而在大数据的背景下,大数据在一定程度上就是全体数据,我们可以对全体数据进行计数或计量分析,这就不存在以样本推断总体的问题了,那么这时还有没有可靠性的问题? 还要不要确定置信水平?怎么确定? 依据是什么? 如何比较来自不同容量数据库的分析结论的可靠性?

所谓有效性评价指的是真实性,即误差大小。这里又有两个相关的概念: 准确性与精确性。准确性一般是指一个观察值与真实值的吻合程度,通常情况下是无法做出测度的; 而精确性一般指样本统计量分布的离散程度,以抽样分布的标准差来衡量。很显然,精确性是针对样本数据而言的。也就是说样本数据既有精确性问题又有准确性问题,样本数据中的误差既包括抽样误差也可能包括非抽样误差。抽样误差可以基于抽样分布理论进行计算和控制,而非抽样误差只能通过各种方式加以识别或判断,但多数情况下由于样本量不是太大而可以得到较好的防范。但对于大数据,由于它是全体数据,因而不再有抽样误差问题,只有非抽样误差问题,也就是说大数据的真实性只表现为准确性而非精确性。然而由于大数据是超大量数据,再加上混杂性与多样性,因此其非抽样误差很难防范与控制,这就使得准确性评价问题变得更为困难———如何测度? 标准怎样?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析师 数据分析 大数据 分析师 统计分析方法 数据分析师 统计思维 大数据 大数据技术 大数据思维

942673 在职认证  发表于 2017-5-27 20:30:20 |显示全部楼层 |坛友微信交流群
我们很多时候都会被误导,认为大数据的作用是让历史告诉未来。不然。大数据之大,一方面在于原始数据库的规模之大,更在于实时流动量之大、数据来源之大。

使用道具

钱学森64 发表于 2017-5-27 21:07:45 |显示全部楼层 |坛友微信交流群
谢谢分享

使用道具

shortsale 发表于 2017-5-28 20:23:29 |显示全部楼层 |坛友微信交流群
都是问题,没有新的思路!

使用道具

shortsale 发表于 2017-5-28 20:31:41 |显示全部楼层 |坛友微信交流群
一个基本问题,大数据不是样本数据,是总体数据吗?需不需要考虑随机性?需要,随机性来自何方?
不需要,处理数据的基本原则是什么?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-19 10:28