相关日志
-
-
分享
如何学习统计学,或我的学习之路——初学者写给初学者
-
不悔的诺言 2017-4-28 23:45
-
https://cos.name/2008/11/how-to-learn-statistics-by-jthu/ 选编者谢益辉 :很幸运刚好在COS博客开张之际江堂兄送来这篇文章,读完之后觉得写得很棒,于是迫不及待把它放在统计之都新站的开篇位置。江堂兄文字功夫很好,本文统计功夫介绍也很到位。我常认为,入门读物应该由非专业人士来写,这样学习体会才更加深刻,而科班五六年的统计学生,也许反倒深陷其中而不见庐山真面目。个人推荐之处有:(1)手算一次回归(为了了解计算细节并理解公式),大量手算就没有必要了;(2)以有趣的书入门;(3)用简单实用的分析而非刻意追求数学模型的复杂,关心数学公式背后的“直觉”;(4)用练习来培养对数据的敏感。本文版权归作者所有,请勿随意转载。作者联系方式:Jiangtang Hu jiangtanghu gmail.com 可能学习和工作还有兴趣都跟统计沾些边,一些朋友和网友也问我些如何学习统计之类的问题,他们当然一样是非统计出身。结合自己的学习经历,这里一并回答了,也权当一个成长备忘录,所以这里取一个柏拉图“《智者篇》,或论正名,逻辑”式的标题。 先说说自己在统计方面的 学习经历 ,相信很多非统计出身的朋友会有共鸣。我本科在北京工商大学念经济学,先后修过三门相关的课: 统计学。其实应该叫做经济统计基础(很老套的学科了),因为除了描述性统计跟统计推断外,这课还包括大量关于经济指数编制等内容。当时我是凭着一只科学计算器完成所有的作业包括考试的,想想是很土。 计量经济学。这是经济系学生的主干课,我们天天跟着老师演算公式。这个比较恐怖,至少截止到期末考试的当天,我还记得二元线性回归的所有推导以及最终恐龙般的公式。这门课用的是授课老师编的教材,不值得推荐。当时为了记住一元跟二元回归的公式,我找到一本好像没多少人提到的书,一个叫白砂堤津耶的日本人写的《通过例题学习计量经济学》(人大出版社,2003)。这本书就是要让人手算各种计量模型,符号系统非常简洁,让要背公式考试的我省心不少。需要提一句的是,这本小书居然还提供了邹氏检验(Chow Test)的手算示例。 我的第一门计量经济学课程就是这么落伍。现在想想,千般不好也有一个好处,就是让我手推跟手算过基本的线性回归模型,这些东西对我而言不再是黑箱。这门课的最后,老师介绍了一下计量经济学小软件TSP的用法,当时没跟着学下来。据师弟师妹反映,该老师的一位研究生教会老师使用Eviews,以后我们的计量老师就在课堂推广Eviews了,福音啊。 SPSS与统计分析。这是一门选修课。之前为了培养对统计的兴趣,自学过些用Excel分析数据,选修这门SPSS是想让自己的工具箱更为强大。这课学得比较积极,跟老师的关系也挺好。 当时学习SPSS还有一个动力。2003年秋季学期我去北京大学经济研究中心(CCER)旁听计量经济学。比较幸运,教员是美国刘易斯-科拉克州立大学的计量经济学教授黄少敏。他刚好在北大访问,经济系七七级出来的。黄老师在课堂上推荐SPSS,并根据这次授课编了一本小书,叫《计量经济学入门》(北大出版社,2004)。那阵子还买了张文彤的两本SPSS书,大红版的《SPSS 11.0统计分析教程》(基础篇和高级篇,北京希望电子出版社,2002)。张当时是上海一个大学做医学统计的教授,在SPSS学习社区里很有名,现在好久没关注了。 本科时就大致如此了。还跟机械系的同学修过一门Matlab与系统仿真,仿真我不懂,就是图跟着学习一下Matlab,不过玩得不是很熟。SPSS很好上手,让我对数据有了不少信心。要捏着计算器面对一大堆数据,人都要疯的那种。 研究生期间我在北大念软件工程,金融信息工程方向,一样要跟数据打交道的专业。先是一门信用评分模型的课,让我自学起SAS。包括接下来一些数据挖掘应用的课程,我开始用SAS完成所有类似的数据分析工作。一般我们提到学SAS用SAS,说的大多是Base SAS或者再加上SAS/STAT,都是编程方式。现我在一家做数据挖掘与商务智能软件的公司实习,接触并学习了SAS产品的其他可视化模块,如Enterprise Guider、Enterprise Miner、JMP等等。这段时间,统计学的学习,包括多元分析时间序列等,都是通过去数学系旁听和自学。期间也尝试玩过R、S-Plus、Minitab之类,都是图个体验,没有认真学的意思。 回顾我的统计学习之旅,一个明显的特征就是统计软件一路同行。我的感受是,对于一个非统计出身的统计爱好者,不借助统计软件,几乎无法领略统计之妙——你没法通过推导公式研究算法而得到乐趣。跟各种软件打了这么多交道,另一个感触就是,过分依赖工具而忽略统计直觉可能是更为危险的事。这两条平行的观点,就构成了我对以下问题的建议:一个非统计出身的人,如何学习统计? 无论你从什么背景转到应用统计,通常的建议是 找一本有趣的入门书 ,这个我觉得大多数国内引进的国外基础教材都不错,取一本而且只取一本学了就是。人大出版社引进的几本厚厚的统计学教材,给商学院学生准备的,突出的是应用,都是非常好的入门读物。商学院出来的学生,有一个好处,即使他们真的不懂数理统计,也不妨碍他们娴熟地运用统计模型向客户兜售观点,赢得单子。因该说,这是应用统计学教育的成功,尽管在统计学的(有意)误用方面,他们常受指摘。这里我熟一点的是安德森的《商务与经济统计》和林德的《商务与经济统计技术》,也有影印版,都多次重印的经典教材。这方面我走了不少弯路。本科时拿一本学校老师编的书上课,为了考试,还看得特别仔细,每道习题都做。想在想想,当时要是用这等精神攻读安德森或者林德的书,境界就不一样啦。现在也翻他们的书,做参考用,却不是以前苦读的劲头。这处女“读”,要献给谁,真是很重要。这跟读书一样,我没有师出名门,本科在北工商念,不敢说自己比北大本科的差,只想说,如果本科在北大念,我会表现更好。同样,如果你用院编教材,要达到安德森或林德的水平,你要付出更多的努力。幸运的是,在统计学习方面,你可以一开始就把自己的努力建立在一个较高的水平上:读安德森或林德。 去年年底,我翻出一本书来补自己的统计直觉,这部不推荐,是因为这书不好找了,只是个人喜欢,书也薄些,美国G.H.维恩堡等著的《数理统计初级教程》(常学将等译,太原:山西人民出版社,1986)。这本书的扉页,有位前读者题辞(在图书馆的书乱涂乱画啊):“本书给你统计学的直觉。”这书我续借超期再借在续借,已近一年,感受是,这书在培养直觉直观方面,真是下足了功夫。美中不足的是,这个译本没有提到这本书的原名就叫做Statistics: An Intuitive Approach。 前面我好几处提到“ 直觉 ”。统计直觉我没资格发言,以前念经济学,隐隐约约能感觉到economic intuition这玩意。这东西不好说,却也能表达一二。跟大部分学科一样,经济学看着也能分成两个类型(接下来我还要强调它们不是对立的),一是专业期刊里充满恐龙级数学符号那种,另外就是白话散文那种。分析现实问题(不必是经济问题)时,也就相应两种思路,一是建立数学模型,二就是拿白话解释,偶尔再加一个简单的图表。这两种方式,白话看似容易些,但也容易流于胡说八道,就要为学院人士所不齿。数学的技术活多些,容易出成果,好拿诺贝尔经济学奖。由白话而成巨星的,我们称之为思想家,更是难能可贵,如诺奖得主科斯,主创产权和交易成本理论的。北大出来去芝加哥大学念经济学的王勇讲了一个好故事: 中心的毕业生中,我大概是属于那种数理倾向比较严重的一类,对经济学中一个个美轮美奂的经典模型痴迷地有些“顽固不化”,要是在自己的论文里突然发现能用上一条在实变函数课上学到的定理会兴奋地跳起来,套用 Ariel Rubinstein教授在2004年国际计量经济学会主席演讲的最后一句话“这真是太美了!不是么?” 然而在芝大上了两年课以后,我才慢慢地更能体会到林老师在《论经济学方法》中提到的很多观点。在上一年级第一学期的课时,我就被深深地震动了。ECON301的价格理论I课的每周作业是Becker教授和 Murphy教授各出一道长题,题目中用文字交待一些经济学问题或者社会现象的背景知识,从恐怖主义到健康问题,从国际贸易到贩毒和住房问题,从投资到经济增长,什么都有,然后接二连三地问一堆问题。每个周二傍晚出题,当周周五上午交作业。我有生以来第一次为完成作业而熬夜就是第二次作业的那个周四。怎样分析这些现象,怎样回答这些问题,完全由自己选择分析方法,而我总想把问题抽象成一个严格的数学模型来求解,取怎么样的假设显然也得完全由自己定夺。可是经常是好不容易使建好的模型能回答第一个小问题a,突然发现很难再用这个模型来回答第二个小问题b,不是求不出解析解就是出现太多不合理的多重解。只好回头修改我的模型,然后不得不再另加一些技术性假设,当然需要再配上为何作如此取舍的经济学理由。如此反反复复,最终发现窗外已经发白,而自己却只能眼巴巴地望着求解问题f时出现的那12条非线性方程和12个未知变量,心灰意冷地继续写道“假定这个系统的解是存在的并且是唯一的,那么……”。我将近25页的作业发下来,10分我只得了3.7分,助教的批语是我采用的是科布—道格拉斯函数型的效用函数,而忽略了分析 non-homothetic 偏好这一重要情况。于是我“耿耿于怀”地去仔细对照那将近20页的标准答案。读完后我真的完全惊呆了:真没想到这么一个个二维平面分析图会那么厉害,所给的分析全是替代效应与收入效应的变相综合,所用的也全是诸如正常商品(normal goods)这样的通常假设,没有太“漂亮”的数学,但是在逻辑上分析的明显要比我的模型完整的多、严密的多、深入的多、也更加具有一般性。 ——王勇:《两年后再读与林老师对话有感》 http://time.dufe.edu.cn/experience/2007-11-25/264.html 白话加逻辑,不用数学而对问题有洞见,说的大概就是“直觉”吧。当然,数学公式密布的场合,直觉也有用武之地,比如,满满一黑板你证明出了一个复杂的定理,然后你拿白话说明为什么会有这个结果,The intuition behind this equation is blablabla,那直觉就相当强了。 经济学直觉完毕。关于统计学直觉,我是类似这样理解的。对非统计科班出身的我们来说,这种训练可能更为重要,而且更为迫切。我们对统计学抱着非常实用的态度,无暇也无力关注大多模型定理背后的推导过程,但为了解释和理解,我们需要对它们有一个通盘的印象,其中的细节不是通过数学推导而来,但是能够用白话明确地表达出来。比如中心极限定理,一个简单的形式是独立同分布的中心极限定理,大概说,如果随机变量X1,…Xn,…相互独立,服从同一分布,且具有相同的数学期望和方差,则随机变量之和ΣXi的标准化变量服从标准正态分布,这可以用数学精确地证明出来。我没有掌握这个推导,但我敢说我能理解这个定理,并且能够明确无误地传达出来,用白话,而不是刚才提到的数学语言。我读维恩堡《数理统计初级教程》,里面是这种处理的(下面的文字来自我做的读书笔记,而不必是该书的摘录。很多朋友可能没法看到该书,我在博客里有记, http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B1E!377.entry ): 演示性例子 想像一个很大的箱子,装满了小纸条,可供我们无穷无尽地抽取,每张纸条上写有一个数字。为简单起见,假定只有0、1、2三个数字,且每个数字出现在每张纸条上的可能性都是1/3。记住,这个箱子里的纸条如此之多,以致我们可以抽取任一数目的任一种纸条,而不必担心会改变箱中剩下的各种纸条之间的比例。 箱子有一个小口,通过它,每次可以释放出一张纸条。箱子还有一个洗牌装置,这种装置会把纸条洗得这样得均匀,以至当我们决定抽取一张时,每张纸条有同样的被释放出来的机会。因此,我们的观察室独立的,而且我们的样本是随机的。 现在我们就来抽取等容量的随机样本,假设每个样本都包含200张纸条。 我们一张一张地抽取200张纸条。比如头一张纸条上的数字是2,第二张纸条的数字是0,第三张纸条是2,如此等等。假设构成这个第一份样本的200张纸条上的数字总和是210,这个和成为所产生的新的分布的第一项。 第二个样本的200张纸条上的数字之和比如是194.对大量的样本,每个样本都包含200张纸条,重复这个过程。中心极限定理告诉我们,这种样本和数越来越多时,样本和的分布近似于正态分布。 如何实际运用中心极限定理 关于中心极限定理,对被抽取样本的那个总体没有要求任何限制。不管被抽取样本的那个总体,其分布的形状如何,样本和的分布都是正态的。 中心极限定理说明,为什么正态分布出现在如此多的不同的问题之中。我们用于纸条取样的那种方法,看来是实际中特别喜欢使用的一种方法。在每次情况中出现的、构成一个正态分布的那些数,都可以看作独立观察资料的等容量样本的和。 例子1。考察射击时围绕靶子构成正态分布的子弹。每一颗子弹击中的位置实际上是许多随机影响的和,比如姿势、风向、光线、心理等等。这些因素和诸如此类因素的影响,同时在一位特定射手的身上起作用;且对于不同的射手,它们是不同的。一个射手的得分,表明他的子弹最终射到何处去了,这个得分是那些随机影响的样本之和。具体地,比如每一个射手的分布式70项主要影响之和,因而每一发子弹的得分,都可以看作是70项的一个样本和(与70张纸条上的那些数字的和相对应)。这样一来,不同射手的得分,就可以看作是不同的等容量样本的和。根据定理1,子弹得分的分布式正态的。 例子2。考察每个人的智力水平,也可以当作出自不同根源的小影响的和来看待,包括营养、机会、性格、遗传等等。这么看来,大量的人的智力水平的分布式正态的。 这就是我喜欢的Intuitive Approach。这本书行走可读,坐卧可读,借助些简单的符号,适度的图表,统计学的基本模型都可以这样清晰地用白话表达出来。我下功夫学习并鼓吹用白话描述统计学,是去年跟Teradata的一位朋友聊天,他提到向客户陈述数据分析结果时,一定要用大白话明确地说出来。当时我尝试了一下,发现自己对统计学的基本概念,都还停留在数学描述的阶段。惭愧惭愧,那时的还自以为自己颇有些统计的基础呢,从此下决心苦练基本功,目标是对所有基本的统计概念、模型,都要达到能够清楚地向一个高年级高中生描述的程度。从应用的角度来说,这种训练是必须的。一个统计学家,不能指望他的听众都一样统计出身,同样,对大多数需要应用统计工具的非统计学家来说,也不能假设他的客户一样是统计爱好者,专业词汇只在一个很窄的圈子里通用。 上面提到的是对统计理论的直观理解。在运用统计技术时的直觉,需要理论基础和经验,这个我就说不了太多了。猜想,一个对统计技术有良好直觉的人,应该对各种数据的分布很敏感,对各种统计方法的运用和误用都了如指掌,总之言之言而总之,他应该像一个经验丰富的手工艺人,老木匠老雕匠一样。 再说 统计工具 的选用,先是初学时的工具,然后是工作的工具。初学者的工具,就是比如你第一次学习安德森或林德的基础统计学,需要选用的统计软件。首先不推荐用SAS、SPSS之类大型的商业软件包,他们会把初学者的精力吸引到工具的使用上面而不是统计理论的理解方面。就像初学一门编程语言,比如C++,所有的经典教材都鼓励用文本编辑器(如记事本、Notepad++等)写代码,而不是一上来就是用一些集成开发环境(IDE)如微软的Visual C++之类。文本编辑器足够简单,能让初学者集中精力关注代码本身而不是IDE的环境设置等扰乱心神的东西。 对初学者来说,电子表格如Excel是一个非常好的选择,足够简单,容易上手,而且还几乎够用。我推荐Excel的另一个理由是,在电子表格里,初学者可以更亲密地接触数据。电子表格里的数据容易编辑,容易犯错,容易修正,容易转换。我甚至鼓励初学者只用加减乘除四则运算,在Excel里手算些基本的如回归模型。手算的好处就是,你会觉得这个模型是你可以“掌”握的,每个结果都是你可以控制的,而不像SAS等软件包运行后就冒出来一大堆像是不请自来的结果。 为了增强对数据的敏感,我鼓励初学者花时间熟悉他有代表性的练习数据。学习统计或者统计软件时,我们面对大量不同的数据,经常是跑完一个数据,看看结果,然后转到另一份数据。这不利于培养对数据的敏感度,前面我提到,对数据的敏感是对统计技术运用有良好直觉的表现之一。讲个极端的例子,在Oracle数据库里,有一个用于测试和练习的公共账户scott,里面有一些数据库表的实例,其中主要两个表,雇员表EMP和部门表DEPT。大概全世界的Oracle程序员都用这两个表练习写SQL语句。他们对这几个表的熟悉程度到了多么夸张的地步呢?Oracle程序员聚会时,一个人提到EMP表里的某个人物,比如Smith,另一个人就可以说出他的职位来(这里Smith的Job是Clerk)。这真正是跟数据同呼吸共命运。 扯远了。还是用程序编辑器的类比,文本编辑器如记事本在初学时够用,但真正做项目时就会显得捉襟见肘了,Windows下的程序员多数还是会选择一些集成开发环境如VC++,这就是统计世界的商业软件包,成熟的是SAS、SPSS和S-Plus,选一款用就是,每款都几乎够用。我现在用SAS,不是说它一定就是最好的,只是说机缘巧合,选择了它,喜欢它,并且不准备更换。选择一个统计包,其实是个很偶然的事,你的老师用什么,你的朋友用什么,你的同事用什么,你大概就会用什么。石头都能刻出花来,无论玩哪一个,都能达到很高的境界。武林高手都有自己得心应手的兵刃,对学者来说,讨论SAS与SPSS孰优孰劣真是没有一点意义,都工具而已。即使不用SAS不用SAS,高手用SQL语句也是能够硬生生鼓捣出一棵决策树出来。 再提一下R,最近在各个统计社区都很流行,这是一款基于命令行的开源统计包。一个讨论就是,用基于命令的软件如R、SAS还是有图形界面的如SPSS。仁者见仁,智者见智,这当然又是一个伪问题,就看个人喜好了。其他的我不是很熟,就拿SAS说事。我们一般认为SAS是要写代码的,那是大多数用户接触Base SAS和SAS/STAT。SAS系统也有好用的桌面工具,如Enterprise Guider、Enterprise Miner、JMP等,图形界面都很友好,自己也经常用。工作中,其实我们都会抱着一个很实用的拿来主义态度,哪个适合完成任务,就选用哪个。但初学者静不下来,就会紧着考虑自己到底要选择哪些装备。 一般地,如果你熟悉SAS,一家只购买了SPSS的公司就不会怀疑你是不是会使用SPSS,其他类似。这里我还是强调它们的工具特性。工具会让我们更有自信,一个资质平平而且无意成为武林高手的庄稼汉,只要接受一点军事训练,拿一把刀就可以壮胆,在战场上还可能立功。现在他手头有一把屠龙刀,你就能指望他号令天下吗?一样的道理,你掌握了SAS,只能让你对处理数据更有信心,而且也能让你在工作中达到既定的目标,但这不表明你的统计功底就达到了你期望的水平。很久很久以前,统计先驱们是硬生生地摇手柄或者干脆拿稿纸手算,创立了现在我们使用的大部分基本统计模型。 到现在,总结一下思路,卑之无甚高论,我对初学者的建议是: 找一个类似安德森或林德的统计学入门教材,熟悉概念和基本模型; 在学习初期,可以使用Excel等电子表格,培养自己手算的敏感; 做项目时,找一款适合自己的软件包; 继续学习统计,不要迷信工具。 一些小建议,还可以附在最后: 学习期间,有任何问题,首先不要想着去论坛发问,教科书或Google能解决你大部分问题。或者干脆找到一个懂行的人,直接去问。人要爱惜自己的羽毛,在论坛问一些傻瓜问题,会损害你在社区的名誉。自己解决问题,会让自己变得更强壮; 不要过于积极地去网上找学习资料。资料太多,人生太短,对大部分人来说,需要的几本书,国内都有引进,找一本搁案头翻阅就是。几本难得的电子书,赶紧打印了出来,从此不再网上瞎整。以前我把硬盘塞满时,突然警惕。疯狂收集电子书自有乐趣,你会沉浸在这种乐趣之中,而忽略真正有用的东西和真正要做的事情; 多认识几位念统计学的朋友,让自己时刻清醒,自己还是这个领域的门外汉。我们都有自己的专攻,清楚非科班出身的人在涉及自己领域时的种种形状。 胡江堂 2008-11-20
-
187 次阅读|0 个评论
-
-
分享
统计学入门推荐
-
不悔的诺言 2017-4-28 23:40
-
书单1:https://sanwen8.cn/p/1f0N5UI.html 作者:冯国双 来源:小白学统计 本文主要针对统计初学者以及想深入学**某一领域的人简要介绍一下各种书籍。在介绍之前,首先说明几点:( 1 )下面介绍的这些书都是本人看过的,我没有提到的并不代表不好,只是因为我没有看过,不敢妄论。( 2 )介绍的领域都是自己较为熟悉的,不熟悉的不介绍,一面给读者带来误导。( 3 )介绍主要以国内或翻译为主,这样适合入门,个别的介绍一些外文书籍。 ( 1 )基础统计方面的书 吴喜之等翻译的《统计学:基本概念和方法》:这本书对一些基本概念如 p 值、置信区间之类的介绍的很通俗易懂,而且搭配了很多有意思的例子,相比那些晦涩的教材,绝对让你有不一样的感觉。 朱红兵等翻译的《社会科学统计方法》:这本书好像知名度不是很大,我也是偶然买的,但是翻了翻发现,很多基础概念讲的特别详细,光是两类错误就讲了有 10 页,可以想象其细致程度了。我看的时候,该书都到了第 4 版了,足以说明该书的优秀。 梁冯珍等翻译的《统计学》:这本书应该主要是面向理工科的,非常厚厚的一本, 800 多页才 17 章。内容虽然不是走的通俗路线,公式比较多,但却没有让人厌烦的感觉,特别清晰,绝没有那种晦涩的感觉。想想国内那些医学统计教材,动不动就 30 多章甚至 50 多章,所谓贪多嚼不烂,怎么可能介绍清楚? 陆守增的《医学统计学》:如果说让我推荐一本国内医学类的基础统计书,我恐怕只会推荐这一本。比较早的一本书, 2001 年的,书中可以看出作者的观点,而且对很多概念有自己的理解。对医学生来说,值得一看。 ( 2 )线性回归的书 谢宇的《线性回归》:偏重于社会学,但是介绍的很详细,思路特别清楚,对回归分析中的各种问题阐述的都有条不紊。有点基础的人就可以看。 郑忠国等翻译的《例解回归分析》:通过不同案例,将回归分析中的常见问题进行了详细描述,带有分析思路。有点基础的人就可以看。 沈崇麟翻译的《回归分析:因变量统计模型》:结合 SAS 对线性回归中的各种问题进行了介绍及分析,结果解释的很清楚。 SAS 辅助学**线性回归的好帮手。 格致出版社的几本小绿皮书《理解回归假设》、《回归诊断简介》、《多元回归中的交互作用》、《虚拟变量回归》等。每本小书都很薄,但写的还算比较详细,适合一定基础的人看。 ( 3 ) logistic 回归的书 王济川等的《 logistic 回归模型——方法与应用》:用一本书分章节分别介绍了 logistic 回归的估计、解释、诊断、评价等内容,很详细。不过是 2001 年的,已经绝版了。 冯国双《医学研究中的 logistic 回归分析与 SAS 应用》:侧重医学领域,每章分别介绍了不同研究中的 logistic 回归分析,如诊断试验、复杂抽样、多水平 logistic 回归等。 格致出版社的几本小绿皮书《应用 logistic 回归分析》、《定序因变量的 logistic 回归模型》,都很薄,适合有一定基础的人看。 ( 4 )分类资料的书 齐亚强翻译的《分类数据分析》:把各种分类资料的方法都介绍了,从简单的卡方到复杂的广义混合模型都涵盖了。不过理论较多,最好是先有一些基础再看会更好一些。 Stoke 等《 categorical data analysis using the SAS system 》,也是一本很厚的书,各种分类资料方法都有介绍,但更为实用,侧重应用,尤其带有 SAS 程序和解释。 ( 5 )生存分析的书 David 等《 survival analysis : a self-learning text 》:好像没有见过翻译版。虽然是英文版,但真的看起来比中文都清楚,不得不佩服他们的统计水平和写作水平。目前看过的最好的关于生存分析的书。 杜本峰《事件史分析及其应用》:介绍这本书主要是因为它的多数内容其实就是上一本书的翻译(不过内容要少了很多),虽然作者写的是自己“著”。 ( 6 )多水平数据相关的书 王济川的《多层统计分析模型——方法与应用》:目前看到的国内写的最清楚的一本关于多水平模型的书,配有 SAS 程序及详细解释,能把这本书看透,多水平模型差不多就没问题了。 余松林等《重复测量资料分析与 SAS 程序》:介绍重复测量数据的,也包含了一些多水平模型的内容,总的来说是不错的,不过对一些细节地方解释的不到位,有些是直接翻译的 SAS help 。 ( 7 )实验设计的书 傅钰生等翻译的《实验设计与分析》:侧重工业生产领域,对常见的完全随机、析因设计等介绍的非常详细。我看的已经是第六版了,其优秀程度无需赘言。 冯国双《医学实验设计分析与 SAS 实现》:跟其他医学实验书不一样的地方是,不仅介绍设计的统计分析,重要的是把设计过程也分别用 SAS 进行了介绍;另外,几乎所有设计的样本量计算都涵盖了,都有详细的 SAS 程序。 陈峰《临床试验精选案例统计学解读》:案例确实是精选的,案例解释的很清楚。不过看之前最好先对各种统计方法有一定了解,否则这是针对案例介绍的,案例中用到什么统计方法就简单提一下,如果对这些方法不清楚的话,可能会有点吃力。 ( 9 ) SAS 基础书 软件类的由于本人只对 SAS 最熟悉,因此只介绍一下 SAS 学**的基础书。 朱世武的《 SAS 编程技术教程》:能看出作者水平较高,但是书看起来逻辑性弱了一些,很多人都反映看不懂,所以对于基础薄弱的人可能需要花很多时间才能自学看懂。 本人的《小白学 SAS 》:前面已有文已经介绍过了,就不用多说了,总体适合菜鸟级入门,但在很多细节地方即使对多年的 SAS 用户也有一定借鉴价值。 辛涛翻译的《 SAS 应用统计分析》:原作者 cody 非常有名,国外很多优秀的 SAS 书都是他写的,如《 learning SAS by example 》、《 cody’s data cleaning technique using SAS 》、《 SAS function by example 》,每本书都堪称经典。本人的《小白学 SAS 》就从中吸收了很多知识。 Delwiche 等的《 The little SAS book 》:非常经典的一本 SAS 基础书,几乎无人不知。
-
107 次阅读|0 个评论
-
-
分享
随机过程笔记
-
accumulation 2015-7-5 17:12
-
第一部分:为什么要研究随机过程? 人类认识世界的历史,就是一认识和描绘各种运动的历史,从宏观的天体运动到分子的运动,到人心理的运动-我们通称为变化,就是一个东西随时间的改变。 人们最成功的描绘运动的模型是牛顿的天体运动,确定性是牛顿体系最大的特征。给定位置和速度,运动轨迹即确定。但是20实际后的科学却失去了牛顿美丽的确定性光环。 因为当人们试图描绘一些真实世界,充满复杂而未知因素的运动时候,人们发现不确定的因素(通常称之为噪音)对事物的变化至关重要,而牛顿的方法几乎难以应用。而我们所能够给出的最好的对事物变化的东西,是一套叫概率论的东西。 而与之相应的产生的一个全新的研究运动的方法-随机过程, 对不确定性下的运动进行精细的数学描述。 我们周边充满了各种各样的数据,所谓大数据时代,这些数据最基本的特点就是含有巨量的噪音, 而随机过程就是从这些噪音里提取信息的武器。 * 其实我们生活中也处处充满“噪音”。比如说我们每天发邮件,经常有一些人时回时不回。那些不回的人到底是忘了还是真的不想回,我们却不知道。一个书呆子统计学家会告诉你,你无法从一次的行为评判他,而要看他一贯的表现。 第一个随机过程方法的伟大胜利是爱因斯坦的布朗运动。一些小花粉在水里,受到水分子不停碰撞,而呈现随机的运动(花粉颗粒由于很小比较容易受到水分子热扰动的影响) 。研究这些花粉的微小运动似乎有点天然呆,我们却从中找到了分子世界重要的信息。而花粉那无序与多变的轨道,也为我们提供了随机运动的范式(随机游走)。 计算机生成的十个粒子的布朗运动轨迹 如果给随机过程打个比方,它就像是一个充满交叉小径的花园。你站在现在的点上,看未来的变化,未来有千万种变化的方式, 每一种可能又不断分叉变化出其它可能。
-
个人分类: 金融工程|0 个评论
GMT+8, 2026-2-13 20:44