楼主: kgmacau
1047 0

作为数据和统计的世界 [推广有奖]

  • 0关注
  • 0粉丝

学前班

40%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
1
精华
0
在线时间
0 小时
注册时间
2016-10-11
最后登录
2016-10-11

楼主
kgmacau 发表于 2016-10-11 13:12:50 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
作者:Kangrinboqe
链接:https://zhuanlan.zhihu.com/p/20947585
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


世界是我的表象. - 阿图尔.叔本华

世界是我的表象, 这是一句真理. 这是叔本华在《作为表象和意志的世界》一书中开篇第一句话. 学过哲学的人对这句话和这本书应该并不陌生. 我斗胆借用叔本华的书名和名句作为本文的题目和核心内容, 来谈谈个人对数据和统计的世界一点浅薄的看法.

世界是人的数据, 更是人的统计. 世界, 首先是人的数据. 世界上所有的客观物体通过人的感官或者借助于工具被人感知到. 比如桌子, 我们通过眼睛看到了桌子的形状和质地, 通过触觉感知到了桌子的硬度, 然后我们知道桌子是真实存在的. 比如音乐, 我们通过耳朵听到了音乐的声音, 然后知到了音乐的存在. 又比如细菌, 我们无法直接通过感觉器官感知到它的存在, 通过显微镜, 我们看到了细菌的状态, 知道了它的真实存在. 再比如金融市场, 我们通过数学模型对测量到的数据进行分析, 推测出了金融市场的相关规律. 桌子, 音乐, 细菌, 金融市场规律以及一切客观存在的物体和事实, 我们无法直接感知到它的存在, 皆是通过感觉器官或者工具或者模型捕捉到他们的属性, 对他们产生认识, 知道确实存在. 这里, 一切客观物体的属性, 就是数据. 所以, 世界首先作为人的数据被人认识.

作为数据的世界, 是如何被人认识到, 转化成知识? 是大脑和统计. 人认识客观物体分为感性认识和理性认识. 通过感官和直接工具对外部客观物体的属性捕捉,然后经过大脑的简单处理产生直接认识, 即是感性认识. 经过人的大脑深层处理, 比如归纳, 演绎等逻辑过程, 试图认识客观物体本质, 即是理性认识. 人的大脑擅长通过简单、直接的思考来认识物体, 不擅长处理复杂的认识过程, 而这是统计和计算机擅长处理的事情. 统计作为一门归纳科学, 为人类佩戴了一幅精致的透过数据认识世界的眼镜, 而计算机则为统计插上了一双展翅高飞的翅膀, 尤其是在处理海量数据的时代. 所以, 世界更是人的归纳和统计.


数据世界

世界充满了数据。数据,不限于人类测量到的,搜集到的和记录到的数据。客观物体的属性,皆是数据。花的颜色,音乐的旋律,桌子的形状,图像等等,皆是数据,透过这些数据信息我们可以获得对世界的认识。比如,我们看到的天鹅总是白色的,根据这些数据信息,我们推断所有的天鹅都是白色的。有一天,我们看到了一只黑色的天鹅,那么基于这个新的颜色信息,我们否定了以前天鹅都是白色的判断,得出天鹅的颜色不止白色,还有黑色,天鹅的颜色可能是多样的。

比如,人们看到太阳总是早晨升起,傍晚落山,推测出太阳的升起和落山是恒定不变的规律。当物理学家观测到了更多的天文数据,分析出了天体运动规律和地球太阳的相对位置和夹角,知道太阳只是相对于地球而言是早晨升起, 傍晚落山的规律。 换一个星球,换一个角度,就是另外一种情形。随着人类社会的发展,数据不再局限于简单的物体属性,逐渐呈现卓见复杂的形式。

古人记录天气变化的数据,整理分析,创造了24节气,方便来农业耕种。后来,官方记录人口调查的数据,用以统计地区人口,方便管理。在天文学方面,科学家记录星体的运动数据,发现天体的运动规律,而且还能根据天体运动轨迹的异常发现新的行星。生物学方面,生物学家通过数据来印证生物进化和生物遗传规律。金融学方面,金融学家通过市场数据来找出金融市场的规律。数据存在于世界的各个角落,在现代社会更是如此,而且呈现出爆炸和海量的模式。

20世纪是IT时代,计算机和互联网让世界变成了村落,世界上即使相距很远的人也可以通过计算机和互联网联系到彼此,就像村落里的邻居,地球从此成为了地球村。21世纪是DT时代,随着互联网和手机的迅猛发展,数据呈现出爆炸式的增长。通过手机和互联网,我们可以足不出户,买到任何东西。手机不再仅限于通电话,发信息,更重要的是它在成为我们生活中重要的工具, 从消费到存款到理财到生活的方方面面。我们的消费数据,理财数据,出行数据等都可以透过手机被轻松获取。数据的爆炸式增长,也促进了统计方法的的迅猛发展。

统计世界

人的大脑对外界的认知是一个归纳过程, 即是从特别到一般的认识过程. 比如, 人们对桌子的认识首先是看到这个桌子的颜色, 形状, 通过触摸感知到它的质地和硬度, 然后对桌子有了一个初始的印象和认识. 但是在不同的时间, 不同的角度看到的桌子, 触碰到的桌子会有差别. 不同的人感知这个桌子也有差别. 我们人对这个桌子的认识, 其实是从我们感知到的个人的, 特殊的信息去归纳出这么一个一般意义上的桌子. 除了这个简单的认知过程以外, 很多复杂的思考过程也涉及到归纳. 比如人在做决策的时候, 根据目前所掌握的部分信息, 推测出整体的情况, 然后基于这个推测结果作出决策, 信息掌握得越多, 对整体情况推测的越精准, 那么作出的决策就越符合实际. 对于简单的思考和认知过程, 人的大脑有足够能力处理. 但是, 随着人类世界的数据和信息爆炸式增长, 超过了人类大脑直接归纳和处理的能力. 这时候, 统计应运而生.

统计, 是一种通过搜集得到的部分数据或基于目前掌握的部分信息, 由特殊到一般的归纳科学. 统计世界两个最基础和最重要的术语, 样本和总体, 样本指的就是一次特殊的抽样, 限于人力物力财力, 只能用特殊的一次抽样样本来推测总体的情况, 这里蕴含了由特殊到一般的归纳思想. 统计的数学理论, 也就是围绕着样本和总体的属性展开推导, 比如用数学标准来评判用样本的统计量来估计总体的参数效果如何, 基于此而选择出比较优良的统计量, 作为总体参数的一个估计. 事实上, 统计是提供了一种归纳思想, 一个模型框架, 在这个思想框架下, 数学算法是它的核心工具. 所以说, 统计首先是一门哲学, 一门具有归纳逻辑的哲学. 其次, 统计是一门科学, 一门像其他所有科学一样依赖数学方法的科学.

统计出现的早期年代, 人类触及到的数据和信息数量较少, 统计学家可以不需要用什么高端的计算工具, 单枪匹马处理数据分析工作. 在21世纪, 随着大数据时代的到来, 统计再也无法单独应对数据分析任务. 计算机的高速发展, 则为新时代的大数据统计分析提供了展翅高飞的翅膀

大数据时代, 有人说这是计算机的时代, 计算机领域的人首先接触到大量的数据, 在这方面有先天的优势. 有人说这是统计的时代, 统计学科从诞生以来就是专门做数据统计分析的, 在大数据分析方面具有很大的优势. 在我个人看来, 数据就好比是人类五官可以感知到的外部信息, 统计就好比人类大脑, 计算机好比人类的心脏. 新时代的数据分析, 统计和计算机缺一不可, 一个是大脑, 提供思想源泉, 一个是心脏, 提供动力源泉.

大数据时代,各行各业都需要统计,都在用到统计,可以说只要有数据的地方就有统计。而这个时代与以前最大的不同就是数据的获取变得更加容易,比如现在国内很火的滴滴打车,替代了传统的出租车,真正做到了资源的优化配置,靠的就是对大量数据的动态统计分析。随着手机的快速发展,数据可以从手机客户端轻而易举获取。我们的饮食习惯和偏好被记录在美团网,大众点评等APP上; 我们的消费习惯和偏好被记录在天猫和京东上;我们的理财和信用信息被记录在信用卡的APP上;甚至我们记日记,出行,旅游以及生活的方方面都可以被记录下来。这些海量信息需要计算机的存储,更需要统计的分析。

人工智能和深度学习领域也是统计深入的一个领域。谷歌正在研究的无人汽车,是基于大量的数据让汽车深度学习和训练,去记忆住客观物体的特征和属性,从而达到识别道路上人和物以及路况的目的;然后,用实际情况去测试无人汽车的智能程度,最后训练出类似于人的无人汽车,达到真正无人驾驶的目的。还有谷歌的那个击败围棋大师的智能阿尔法狗,采用的是深度学习和神经网络的统计方法。可以说,人工智能的高速发展是离不开统计的。

统计世界像人类认知世界一样, 分为两个派别:频率统计学派和贝叶斯统计学派. 两个学派像是人类认知世界里的唯物主义和唯心主义. 唯物主义坚持一切认识都源于对客观世界的感觉信息, 这个学派强调客观物质的重要性, 认为首先有了物质, 然后产生了人类的意识. 唯心主义坚持人类对外界物质的认识源于人类头脑中有先验知识, 基于这些先验知识, 人类对客观物体的认识才成为可能. 唯心学派强调先验知识和意识的重要性, 认为没有先验知识和意识, 人类无法对客观存在的物体产生认识. 频率统计学派对数据和信息的处理, 类似于唯物学派, 认为统计分析的结果应该直接源于对客观数据的分析, 就是一切让数据说话, 坚持绝对的客观. 贝叶斯统计学派, 则类似于唯心学派, 认为在做统计分析时除了客观数据, 还应该把人对总体参数的先验信息加以考虑, 贝叶斯统计融合了客观数据和人的经验信息, 被认为是更接近于人类对世界的认知过程.

著名的统计学家, bootstrap的创始人Bradley Efron则是另一个学派的代表,他认为贝叶斯和频率学派的融合是未来的发展趋势,频率学派在对参数过多的情况处理显得力不能及,而贝叶斯的方法总是受到关于先验信息过于主观的批评,那么Efron教授认为,我们应该采取贝叶斯的方法,但是在对先验信息的处理上选择客观处理。简单理解,就是客观唯心主义。用哲学语言描述就是,我们人类对世界的认识是一个客观唯心的过程:客观物质首先存在,地球早期的人类对客观物质有了最低级的感觉,然后感觉慢慢演化成低级的意识,继续进化,产生了高级的意识, 然后这些高级的人类意识通过基因遗传给子孙后代;所以,小孩儿在出生时就有了先验知识,就是意识,这也是人对客观物质能够认识的基础;随着小孩儿慢慢长大,获取客观世界的信息日积月累,结合这些信息和先验知识,产生新的经验,这些经验即是下一次处理信息时的先验知识。统计也是这样的一个过程, 人对特定分析问题的先验知识,加上搜集到的数据,产生统计结果和结论。待到有更多新数据时,之前的先验知识,加上现有的新数据,会产生新的统计结果和结论。统计学里的先验知识,就是这样一种动态的,不断累积的结果。所以,从这个角度看,统计不正像我们人类的认知过程吗?其实,人的大脑何尝不是一个统计机, 从外部环境感知到信息, 在经过大脑这个统计模型的处理之后, 会对外部世界的物体/或现象做一个推断, 从而认识这个物体/现象.

统计,作为人类认识世界的另一个理性的大脑,在大数据时代,在未来会有更美好的前景。最后,我来谈谈统计的未来。

统计的逻辑哲学基础

1.在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。(统计学家C.R Rao)


2.Essentially, all models are wrong, but some are useful. (Goerge Box)

人类认识世界,存在两种逻辑思维过程:演绎和归纳。归纳是由个别(特殊)现象推断出一般(总体)情况。演绎是由一般(总体)推及个别(特殊)情况。在抽象的意义下,一切科学都是数学:就是说一切科学在抽象的情况下,无论物理学,化学,生物学,社会科学,甚至语言学,都可以用数学符号和数学方程甚至数学模型来表示;数学是演绎过程,是由一般推及特殊的过程,数学上的推导在逻辑上是一种必然的存在,比如说2+2=4,在数学上是如此,在生活中任何2个事物加上2个事物都是4个,这是一种逻辑的必然。那么在抽象的情况下,任何科学也都有这个严密的数学逻辑基础。然而世界不是抽象的,不是理想的,世界的复杂在于现实,所以很多时候数学的完美演绎过程并不适用于现实中的科学。

现实中的情况是不确定的,变化的,而且我们人类认识世界更多的时候是从个别现象开始来推及本质,这本身就是一个归纳过程,由于是特殊到一般,本身也存在不确定性。概率作为衡量不确定大小的工具,为统计提供了归纳的逻辑基础。

概率统计作为一个强有力的归纳工具,从19世纪开始,尤其是现在的大数据时代,发挥了强大的作用。医院里的数据库有很多病人的信息,根据病人的患病特征和所患疾病,训练出优化的统计模型。当有新病人来了之后,我们可以根据病人的特征,来预测出他患哪种疾病。(这里是针对那种容易诊断错误和混淆的疾病, 也就是说多种疾病具有同样特征的情况而言,这时候模型给出的是具体特征下患有A,B,C病的概率,概率最大的则是病人最可能患有的病)。除了医学,统计在金融领域,计算机领域,社会科学领域,心理学等发挥着基础性的工具作用。这是一个大数据的时代,更是统计的时代。

统计看似是万能的,但事实真是如此吗。本质上,所有的统计模型都是错的,因为是归纳,因为带有一定的概率性,所以这不是必然的存在,一定有误差,适用范围也是有限的,所以本质上统计模型一定是错的,但是在大多数情况下确实有用,正如上文的多个例子所说。

著名的黑天鹅事件彻底的反映了人的预测无知。人类的最大无知在于把未来的事情是否发生建立在过去的经验之上,但是没有人能保证未来的现象存在于过去现象的集合中。 即使太阳已经每天升起频次达到1亿次,也不能从逻辑上绝对保证明天太阳照样从东方升起。 太阳明天升起和昨天升起没有因果关系,我们无法通过过去的事情预测未来。而统计的预测则是带有一定不确定性和风险。欧洲人看到的所有天鹅都是白色的,所以他们从不认为会有黑色的天鹅,直到黑天鹅出现,他们才意识到预测的局限,黑天鹅这个未来的现象从未出现在过去白天鹅的集合中,所以人类的认知模型出了问题,即使这个概率很小,但是不意味着它不会发生。大卫•休谟说:“运用归纳法的正当性永远不可能从理性上被证明。”

统计只是一种有用的工具,但绝对不是一种数学上正确的工具,它是一定程度上的理性判断,是帮助人们在99%上理性认识世界的工具,但它也会出错。其实,统计中最基础的一个核心概念P值,它的定义是当H0假设为真时,出现当前样本结果或者更极端情况的概率。用公式表达是P(Event|H0),为了数学上的统计量可以计算,我们采用了这样的一个很奇怪的概率方式。正常的情况应该是,P(H0|Event), 基于样本结果得到原假设或者背则假设出现的概率是多大, 这样看起来更为直观,这也是大哲学家Carnap所推崇的逻辑概率。归纳在本质上是以不确定性和概率为基础的,那么归纳其实可以看成是partial演绎法,即带有不确定的部分程度演绎法。但是,不管如何,归根到底,过去的事件对未来的事件没有因果上的关系,有的只是相关,所以归根到底,统计所做的工作是在预测相关性,而不是因果性,相关不是必然,而必然的因果在归纳统计学里无法得到印证。 统计的基础是概率,概率的逻辑基础方面的突破或许可以为统计带来突破。 以后我会写篇文章具体讲讲两大类概率:客观概率(频率概率和Propensity 概率)和主观概率 (Bayesian条件概率和Carnap逻辑概率)。


统计的未来

我曾经在知乎上提问了一个问题:大家见过最神奇的R包是哪个?提问这个问题源于,我曾经发现了一个很神奇的R语言包,更神奇的是它的作者。这个R包叫做diagram, 包如其名,主要用来作流程图,树状图和层次图。我梦寐以求都想画出来的多水平层次结构图,就是用该包成功实现的。它的作者是荷兰皇家海洋研究所一名从事食物链和地球生物化学研究的Karline Soetaert教授写的软件包。 我们可能常常误认为统计软件,总是被搞统计或者搞计算机的人在使用或者开发吧。所以,当我知道这位教授的研究背景时,觉得震惊。但这不正是现如今R语言被各行各业研究工作者在使用和开发的一种火热状态吗。最早是统计学家开发出来S语言和R语言,到现在各行各业的研究者使用和继续开发。从统计到生物信息, 从环境学到动物学,从金融学到经济学,从计算机到数学,都有人在使用R。甚至如果有一天,你发现语言学家或者哲学家在使用R,或者开发了R包,请不要奇怪?或许,他们在用R作图表达哲学术语中的逻辑关系和人类学中的术语关系。R语言的现在和未来的火热情形,我猜也是统计的情形。

在未来的世界,到处充满数据,人人都在用统计。或许你会看到这样的场景,请不要惊叹:一个哲学家在深入研究一个哲学课题;早晨,他来到办公室打开电脑,点开邮件,提示他云空间收到了最新的哲学数据;接着他打开一个叫做DataStatReport的软件,编写了一段对数据进行清洗,统计分析和写报告的程序,最后单击run, 生成了一份哲学数据统计分析的研究报告,最后这项最新研究成果公布于世。

未来的统计,不再是统计专业的专利,任何人都可以做统计。如果统计专业的学生想脱颖而出,那么你可能需要在以下几点上多花点功夫:1. 对实际问题的背景深入了解和整体把握。2. 对统计方法和模型的深度了解和把握。3. 对模型的数学算法有一定了解。4. 需要对数据有深刻认识和把握。5. 具备熟练的编程能力。如果你还有点时间,请读一点哲学和认知科学吧,对人如何认知和如何思考的深入了解会使你在统计思想上有更深刻的见解。


原文摘自知乎Kangrinboqe (我的知乎帐号)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:propensity Bootstrap Essential Bootstra Bayesian 统计

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 15:05