楼主: 有福有德
234 4

[学习资料] 阅读《统计分析:从数据到大数据》有感 [分享]

教师

院士

5%

还不是VIP/贵宾

-

威望
4
论坛币
57925 个
通用积分
6.0334
学术水平
344 点
热心指数
203 点
信用等级
274 点
经验
37354 点
帖子
1136
精华
10
在线时间
903 小时
注册时间
2010-10-14
最后登录
2020-1-15

有福有德 在职认证  发表于 2020-1-15 19:23:22 |显示全部楼层
书籍.jpg

读《统计分析:从小数据到大数据》有感

      量化模型并不需要学的特别精深,站在应用者的立场看,能够使用或刚刚够用就好。这是作者在撰写本书时侧重考虑的角度——依初学者的视角看知识和问题,从而在应用层面上得以拓展。

   (1)具象化和几何式思维。

    也就是说,我们在思考任何问题时,想到的具体问题能够使用图形以印象。把问题想成一种图形,随便勾勒几笔,不管对不对,知道知识与具象相对应。后期可以进一步通过相关知识点的学习加以验证或佐证这一块内容。当然前期的学习很有可能会出错,但只要我们在解决实际问题时,根据反馈相应纠正就好,毕竟学习之路并不一帆风顺。

     我们可以试想,对初学者而言,没有接过太多的统计学。如果我想把方差分析左边的公式讲清楚,我可能至少要花2天左右的时间,而结果可能是限于授课水平,学生可能根本听不懂,这样反而会影响自信。但是就右边的图形而言,也许举个例子,就能把这个问题说明白,而且图形的印象作用会一直有。

那么是不是公式就不用讲了呢,回答是否定的。一般对于初学者而言,应该先入为主地以图形印象为主,辅以公式,并随着接受能力水平的提高,逐渐加码抽象性技术的解读。

方差分析.jpg


    (2)算法和模型的区别

      算法就像发动机,它已经复杂到了,作为一个应用数据分析师,不需要去了解的程度,尤其是智能算法,如神经网络。作为驾驶者我们需要知道的是发动机会发热,保养就可以了,至于怎么保养,它的原理是什么,技术核心是什么,这个对我们驾驶者而言,其实就已经没有多大意义了。而应用数据分析师更应该知道如果驾驶车子,然后培训自己的驾驶技术,在不断的案例实践中,形成自己的驾驶感觉和良好的习惯,所以我们在案例学习过程中,其实就是在不断地训练自己成为一名老司机。

      我们可以把模型看成是一组数据和业务关系的组合,并通过数学的方式将其量化出来的技术。算法是实现这个模型拟合过程的技术,所以如果从模型的角度来说,模型的预分析(填补缺失、处理异常值、消除共线性、内生性问题、变量变换技术、编码技术、避免过拟合)、修正(假设条件、优缺点)等属于模型部分。而模型算法,如最小二乘、最大似然等方法,这属于算法部分。对于应用数据分析师而言,模型部分要比算法部分重要。算法通常都是软件可以集成,并且不同软件差异并不是特别大,但是模型涉及到众多参数,而这些参数又多数与当前解决的问题相关,因此我们的问题是否得以妥善解决,与业务参数的理解程度息息相关。

   (3)模块化的知识点

      统计学100多年来,每一次应用上的变革都会产生算法上的变革,到目前为止,算法已经从1.0逐渐进化到4.0。1.0的算法普遍具有的特点是参数很全很多,但是运行速度慢;4.0算法的特点是集成效果好,但能够调整的参数则很少,或者说没有什么功能可供选择,但优点是运行速度快,以应对大型数据的挑战。

  (4)流程化的数据分析

    需求→y量化→特征选择→描述→预分析→建模→修正→推论评估→应用→可视化

l  需求:搭建业务框架。

l  y量化:连接业务和统计。

l  特征选择:区分x的重要性,做特征选择。

l  描述:描述y和重要的x。

l  预分析:缺失值、异常值、拟合判断、变量变换、取值编码、特征选择、共线性。

l  建模:模型假设、优缺点。

l  修正:假设、优缺点。

l  推论:衔接作用。

l  评估:拟合指标和业务评价。

l  应用:归因(主次归因和规则归因)、预测(老样本预测和新样本预测)。

l  可视化:简美与繁美。

    (5)应用统计与理论统计的区别

     统计学可作应用统计和理论统计的划分,所谓应用统计主要业务为导向的数据分析。工作内容对应的典型场景是老板脸色、业绩压力、项目合作、月报、客户满意度、数据库质量、问卷调查等,而理论统计则系为学院派侧重对算法的开发,典型的场景是实验设计、论文、项目申报、职称、教学等,可见应用场景上存在很大差别,所以学习方式也存在很大的差别。

l  业务能力的提升

     应用统计的基础是业务,一般建议初学者需要花费6-12个月来学习基本的业务知识,然后随业务水涨船高,此时大约1年左右的业务知识储备是中级数据分析师必须的业务准备,但高级分析师需要5年以上的业务知识储备,这才能使得高级分析师具备多元化的分析能力,如业务和统计能力,当然业务知识就是不可逾越的知识壁垒。

l  分子>分母

      统计指标是由两部分组成:分子和分母。分子用于研究差异,通常以减号的形式出现,而分母用于消除误差。分子是应用统计关注的重点,因为差异中隐含着统计效应方差,也隐含着原假设,进而隐含对归因问题的探索,而若检视分母,分母中隐含误差,包括测量误差、替代性误差(均值的代表性)、结构误差和随机噪声,而这些误差主要指向模型本身,对业务理解和解释帮助甚微,因此建议读者可以将更多的精力用在分子的学习上。

l  经费至上

      项目经费是应用统计任何决策的底层逻辑,有时我们会顿感不惑,也许想想“钱”就能明白很多。

      在商业应用中,我们经常与这样的语言不期而遇:“就这样吧”接受不完美、“先放一放”不归因或工具归因、“预算不够!”预算从来就没有够的时候、“为什么项目失败”商品部的…,市场部的…,营销部的…对头来不了了之、“我们要大数据分析”其实我们根本就没有数据,也没有经费、“我们要改革要创新”谁也不会自愿分出一份蛋糕、“您看着办”其实多数是没法办、“没有条件创造条件”能够节省经费,这是唯一被鼓励的创新。

(6)案例化

      案例是一个完整的故事,而故事在每个阶段有不同的角色扮演,对应不同的解释场景。尽管这些场景应用繁多,也会随着参数的变化而变化,甚至会产生复杂的组合变化,但是没有关系,初学者从案例开始能获得最初的成就感,知道模型可以解决的问题,并形成一整套的故事化思维。


以上是阅读丁老师这本书的心得,唯恐介绍的内容有所偏差,本人也亲自请教过丁老师,所以应该还是比较准确的(以上部分内容摘录于本书)。


stata SPSS
Ipub 发表于 昨天 09:53 |显示全部楼层
算法就像发动机,它已经复杂到了,作为一个应用数据分析师,不需要去了解的程度,尤其是智能算法,如神经网络。作为驾驶者我们需要知道的是发动机会发热,保养就可以了,至于怎么保养,它的原理是什么,技术核心是什么,这个对我们驾驶者而言,其实就已经没有多大意义了。

这句话说得很好!很好的区分了使用者和工程师的界限!为作者点赞
回复

使用道具 举报

18249079690 学生认证  发表于 昨天 10:01 |显示全部楼层
从小数据到大数据,谢谢楼主分享,学习了
回复

使用道具 举报

小小小庄 学生认证  发表于 昨天 10:03 |显示全部楼层
谢谢楼主分享,学习了,算法很重要
回复

使用道具 举报

xuying- 发表于 昨天 10:11 |显示全部楼层
根据初学者的视角看知识和问题,从而在应用层面上得以拓展。感谢楼主分享,点赞!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2020-1-18 01:34