楼主: happy_287422301
67237 1334

[学科前沿] 千币悬赏庆祝首个世界统计日 [推广有奖]

131
gdczlhd 发表于 2010-10-20 02:11:20
費雪還有很多其他的貢獻,早先我們曾提到他介紹了一樣本統計量是否為一個群體參數的好估計量的判定準則,包括了一致性,效率性和充足性等概念就是在1921年一篇重要文獻中提到的。在這類文章中,他還曾介紹最概估計量 (maximum likelihood estimation) 的觀念。


1919年費氏離開他在中學教數學的工作,轉至羅森斯得農業試驗站 (Rothamsted Agricultural Experimental station),在這裏他發展出現在世界通用的抽樣技巧和隨機程序。他的兩本名著《Statistical Methods for Research Workers》和《Design of Experiments》分別於1925年和1935年出版,對於統計有重大的影響。後者的第二章曾列入《數學世界》 註5,在這篇非常引人入勝的文章中,費氏提到有一位女士聲稱她能分辨出她的茶中牛奶是在泡茶之前或之後加入的,而後他描述一種實驗計劃來證明或否定該女士的聲稱。


為了想答覆關於群體的問題,由實用的觀點來看,我們必須由群體中選取樣本,然後依據樣本所提供的資訊推論母體。母體所涉及的如母體均值 μ 和標準差 σ 都是未知,假設有一個樣本被很適當地選出(如何選法是一個很重要的統計問題),依據樣本可以得出相當好的母體參數或某量的估計值。早先我們曾提到費雪提出母體參數的好樣本統計量的判別準則,我們只是很簡要的提出,假若 (x1,,xn) 代表一組由母體均值為 μ、標準差為 σ 的群體中選取的樣本,則分別定義如下的樣本平均數  和樣本標準差 S。







用這些統計量以估計 μ 及 σ,會滿足費雪所訂的大部份準則 註6。

如果我們由一個群體取出很多組樣本,並且每組均計算  值,我們就可得到很多不同的數值,而這些數值會趨於接近群體平均數 μ。這樣看來, 也是一個變數呈某種形式分佈,這就引起了一個重要問題:若已知群體變數為某種分配,則樣本平均數又如何分配?下述定理,我們僅敘述而不證明,可回答部份這個問題。



定理:若母體變數的分佈函數為平均數 μ 和標準差 σ 的常態分配,則樣本平均值  亦為常態分配,其平均數為 μ,標準差 ,n 為樣本大小。
回想標準差的重要性,我們的結論是當樣本大小越大,則  值接近 μ 的機率也愈大,如圖五所示。在應用這個定理時,受到一個嚴格的限制,因為實際上的任何群體是否確實為常態分配很可懷疑。有很多群體變數甚至不近似常態分配,但有一個在機率論上最著名的定理,也是在所有數學中最著名的定理之一可以部分幫助解決這個問題是中央極限定理,其中一種形式敘述如下:


定理:若一母體變數不論其分配如何,只要有平均數 μ 和一標準差 σ,則 約近似為平均數為 μ 和標準差  的常態分配,而且當樣本數 n 越大時, 的分佈越近似常態分配。
中央極限定理有一段相當長的發展史,1773年棣美弗證明其第一種形式即考慮擲硬幣只有兩種可能出現的情形,我們在前面所說的形式是1922年凌德柏 (J.W.Lindeberg) 所述 註7 。近來俄國數學家甚至給出  以常態分配為其極限分配的充要條件,把本定理推廣至其極致。為了顯示統計學家對中央極限定理的用法,我們來看由霍爾 (Paul G. Hoel) 編著的統計教本 註8 中的一個典型問題「某細繩製油商由過去的經驗發覺某種細繩的平均耐拉力為15.6磅,標準差為2.2,現試將這種細繩的製造過程時間縮短,而後取50條細繩為樣本做試驗。結果發現其平均耐拉力減為14.5磅,試問依據這個樣本,是否應下結論為「新製造程序對繩子拉力有壞的影響?」」




--------------------------------------------------------------------------------
圖五  



統計人員稱這種問題為假說檢定,我們必須檢定假說  對 ,雖然製造程序改變,標準差也很可能改變,但是我們仍假設耐拉力 X 的標準差為2.2磅,現在我們用到了中央極限定理,不論 X 如何分配, 為平均數 μ 和標準差  的近似常態分配,或者說  為平均數 0 和標準差 1 的標準常態分配。然後我們查數值表,發現  遠離15.6,如果假說 H0 成立的話,  的機率僅0.0002,因此我們棄卻 H0 而接受 H1。依照通常在 H0 成立的假說下, 值出現的機率僅0.05時即棄卻 H0 的原則,由數表可知當  小於15.09,我們就應判定棄卻 H0,任意小於15.09的數值稱為在臨界區域。




--------------------------------------------------------------------------------
圖六  



我們再回頭提一下假設新製程的標準差 σ 不變的誤差機率。事實上,這時 σ 已不是一個已知數,但是我們可以計算出樣本標準差 S,在1908年化學家高塞特(William Gosset)以 Student 的筆名發表他發現的統計量 (注意 σ 被 S 取代)的分配,他指出若 X 為常態分配,則 t 為自由度 n-1 的 student t 分配,這種分配相當重要,其分配數值在一般統計數表中均有列出。雖然高塞特於1908年發現 t 分配,但是他的結果只是一種猜測,直到1926年才由費雪加以嚴密的證明。在此 X 為常態分配這條件非常緊要,但是即使 X 僅為近似常態分配,統計學家發現當 σ 為未知,尤其是當樣本數 n 值很小時,非常適宜採用 t 分配。當 n 相當大時,S 和 σ 的差別越來越小,因此不太需要使用 t 分配數值表。


第三個時期以為在1928年聶曼(Jerzy Neyman)和伊根.皮爾遜(Egon Pearson, 卡爾.皮爾遜之子)的共同論文多篇的發表為開端,這些論文介紹和強調諸如驗定問題中的第二種錯誤,檢驗的檢定力和信賴區間之類的觀念。在這期間,工業界開始大量採用統計技巧,尤其是與品質管制有關的統計。並且由於人們對調查工作的感興趣導向對抽樣理論與技巧的研究,1928年聶曼和伊根.皮爾遜的論文為檢定與估計理論帶來一種嶄新的面貌。包括對許多費雪早先提出的想法的重新加以整理和修正,例如在細繩製造商的問題中,我們早先得到的結論是:若一樣本的樣本平均數值小於15.09則棄卻假說 H0。聶曼和皮爾遜提出如下之類的問題:為什麼我們要設15.09以左為臨界域?為什麼不取0.025在分配曲線極左的面積和0.25在分配曲線極右的面積成「雙尾」(two tailed) 臨界區域?




--------------------------------------------------------------------------------
圖七  



於選取臨界域時必須採何種準則?我們必須要用直覺還是用嚴謹的數學?我們得到如圖八的結論牽涉到兩種不同型態的錯誤,聶曼和皮爾遜命名為第一種錯誤和第二種錯誤。聶曼和皮爾遜總結他們的發現歸納成為下述原則:在所有具有相同第一種錯誤的試驗(臨界域)中,我們選用具最小第二種錯誤的臨界域。



  H0為真 H1為真
接受H0 正確決定 第二種錯誤
接受H1 第一種錯誤 正確決定


圖八
雖然本原則的應用相當複雜,聶曼和皮爾遜的影響使本原則及其相關的檢定力函數成為重要的統計概念,並且發展出討論這類問題的一般數學理論。


談現代統計學的發展,實不能不提華德(Abraham Wald, 1902~1950) 註9 ,否則必定顯得不完備。華德的第一篇論文關於目前常見的統計程序──逐次抽樣 (sequential sampling) 的出現第四時期的開始。這篇1939年的論文是華德一連串論文的起始,不幸正當他的創新力處於顛峰時卻由於飛機失事死於非命。華德最大的貢獻之一是他介紹一種對統計問題的新看法(1945),那就是以對局的觀點去處理統計方面的問題,這就是今日所稱的統計決策理論 (statistical dicision theory)。從這個觀點,統計被視為以自然為對手的對局的藝術,這是一個相當廣義的理論,雖然它牽涉到相當複雜的數學,但是平心而論,我們可以說大部分目前的統計研究人員發現採用這種新觀點非常理想。華德對統計理論發展的方向有重大的影響,他的「門徒」們多成為今日統計界的領袖人物。


華德誕生在羅馬尼亞,是正統的 (orthodox) 猶太世家,由於它的宗教信仰,使他受教育的機會受到某些限制,而必須靠自修彌補。他自修的結果竟能對希爾伯特 (Hilbert) 的《Foundation of Geometry》提出有價值的見解,他的建議列入該書的第七版中,這一事實充分顯示了他的數學天賦。後來華德進入維也納大學並且在僅修了三門課之後就得到博士學位。在這個時期的奧地利,由於政治上的因素使他無法從事學術工作,只好接受一個私人職位,職責是幫助一位銀行家增廣高等數學知識,他因此對經濟學深感興趣,後來成為經濟學家摩根斯坦 (Oskar Morgenstern) 的親信助理。摩氏曾與馮紐曼 (John Von Neumann) 共同合作從事研究並奠定了對局論 (game theory) 的基礎。


華德在二次大戰前到達美國,他的父母和姊妹不幸沒有逃出來,結果死於納粹的瓦斯房。華德由於對經濟學的興趣接觸到統計學,逐漸轉向從事統計學的研究,不久竟成為一位傑出的理論統計學家。除了統計決策理論之外,華德對統計還有很多重要的貢獻,在此我們提出主要的一個,就是逐次分析。雖然這個理論可能不是他所首創,但卻是他發展完成的(1943)。這個技巧在減少生產製程中的抽樣數方面非常重要,二次大戰期間曾被列為機密。


現在我們以工業方面的品質管制問題為例來說明逐次分析的觀念,在逐次方法未發表之前,標準的抽樣程序是由製成品中抽取定量的樣本,然後依據樣本中所含不良品數的多寡判定允收或拒收該批。這種程序忽略了關於製成品批的優劣資訊可由在抽樣過程中不良品出現率的大小獲得的事實。


在逐次抽樣中,我們把抽樣過程中可能發生的狀況分為三類:


(1)大量不良品連續出現導致立即判定拒收該批
(2)大量良品連續出現,導致立即判定允收該批
(3)缺乏結論性的證據,因此必須繼續抽樣,圖九是一個實例。


--------------------------------------------------------------------------------
圖九:這次抽樣  



這三個區域的劃分準則視所允許的第一種錯誤和第二種錯誤而定。在本例中,在查驗第六十個製成品後才判定允收。


由圖形中可見,這種抽樣方法可能很快就能決定是否允收,也可能在中間區域停留很久的時間,但是華德證明允收或拒收的決定能於有限步內達成的機率為1,實際經驗顯示逐次抽樣和傳統的固定樣本大小的程序相比在抽樣費用方面約可節省一半。


除了上述四大統計思潮外,1933年俄國數學家柯摩哥羅夫 (Kolmogorov) 發表《Foundation of the theory of probability》為統計學理論奠定了邏輯基礎。在統計應用技巧方面,電子計算機的發展和使用是一大革命。十九世紀末葉開始,美國人口調查局 (U.S. Census Bureau) 每十年舉辦一次人口普查,後來,由於人口的漸增,人口調查局發現他們已越來越無法處理所蒐集的成堆數據。賀爾瑞茲 (Herman Hollerith) 想出許多利用打孔卡片 (punched card) 記錄數據的方法,並且發明機械能讀這些數據和處置資訊 (Information),在賀氏的指導下,1894年人口調查局的工作利用打孔卡和讀卡機,提高不少效率。雖然1890年人口調查時,美國人口比1880年增多了約百分之二十五,但是工作完成所費的時間卻僅為其三分之一。


電子計算機於二次大戰後發展一日千里,1950年後漸進入實用階段。計算機的出現不但使統計計算工作簡化,而且快捷。尤其是有了統計成套程式 (Statistical package) 以後,更為方便,只要知道應採用何種統計方法就能使用。1972年惠普 (Heweleit Packard) 公司發展出掌上型計算器 (calculator),對於一般小統計問題的解決,更是方便,不必因為統計問題特地到計算機中心去。


統計為一科學方法,其可應用範圍,遍及自然科學及社會科學的整個領域中的許多部分,大凡農業、工業、商業、教育、醫藥、政治、社會、經濟等等許多問題無不適合採用統計方法處理,統計學傳入我國雖已有相當時日,但是我國目前還只有政府機關較為重視,民間工商企業近年來雖然也漸漸講求科學管理,但是大多未能應用統計方法。



1. Dale E.Varbery 《The development of modern statistics》 Part I, II, The Mathematics Teacher April 1963 p.252-257 May 1963 p.44-348.
2. Mario F.Triola 《Mathematics and the modern world》 Cummings Publishing Company, 1973.

132
gdczlhd 发表于 2010-10-20 02:13:51
统计学的起源

    我国古代典籍中就有“上古结绳而治①”,“伏羲仓精,初造王业,画卦结绳,以理海内”的铭文。九家易云:“古无文字,其有约誓之事,事大,大其绳;事小,小其绳。结之多少,随物众寡,执以相考”。这就说明,当时已产生了简单的分组(大事,小事),与简单的分组总量指标(大事件数,小事件数),成为我国统计的萌芽。

    当然,单是收集、记录数据这种活动本身并不能等同于统计学这门科学的建立,需要对收集来的数据进行排比、整理,用精炼和醒目的形式表达,在这个基础上对所研究的事物进行定量或定性估计、描述和解释,并预测其在未来可能的发展状况。某些著名学者认为,直到《关于死亡公报的自然和政治观察》 ②一书的诞生,统计学才构成一门学问。

统计学的发展与学派

    在统计理论的发展过程中,由于各国的历史背景、经济水平与思想渊源不同,对统计的研究内容和表达方式也互异,因此,后来陆续形成了国势学派、 政治算术学派、数理统计学派和社会统计学派等学派。

    纵观统计学的形成与发展,主要经历了以下三个阶段:古典统计学——统计学的奠基阶段(17世纪中至19世纪末)、近代统计学——统计学体系形成的阶段(本世纪初至本世纪中)、现代统计学——统计学全面发展的阶段(本世纪中至今)。

    在最近半个世纪统计活动的发展中,国民经济账户体系的建立,概率论和其他数学方法的广泛应用,统计机构的进一步完善,信息处理手段的自动化,被称为“现代统计”的四大标志。依据建立社会主义市场经济和现代管理科学发展的需要,以及信息社会的到来,统计面向决策部门、面向社会、面向基层、面向世界的服务领域和内容逐渐拓展,统计信息涉及的范围不断拓宽,统计在国家管理、企业预测与决策、市场营销调查、家庭投资决策、以及人类的一般认识活动和科学研究等各个领域将被日益广泛应用。

统计学的现实意义与作用

    统计学的理论和方法,与人类活动的各个领域在不同程度上都有关联。因为各个领域内的活动,都得在不同的程度上与数据打交道,都有如何收集和分析数据的问题,因此也就有统计学用武之地。

    在工业中生产一种产品,数理统计学中有一个专门分支叫“试验设计”用来做配方和工艺条件的选定。生产过程中,在统计学中有一门“工序控制”的学问,通过在生产过程中随时收集数据并用统计方法进行处理,可以监测出不正常情况的出现以便随时加以纠正,避免出现大的问题;大批量的产品生产出来后,还有一个通过抽样检验以检验其质量是否达到要求的过程。

133
gdczlhd 发表于 2010-10-20 02:14:52
在农业上,有关选种,耕作条件,肥料选择等一系列的问题的解决,都与统计方法的应用有关。

    医学与生物学是统计方法应用最多的领域之一,不少国家对一种新药的上市和一种治疗方法的批准,都设定了很严格的试验和统计检验的要求,又如:许多生活习惯(如吸烟、饮酒、高盐饮食之类)对健康的影响,环境污染对健康的影响,都要通过收集大量数据进行统计分析来研究。

134
gdczlhd 发表于 2010-10-20 02:15:15
对社会现象的研究大量地使用统计方法,因为组成社会的单元——人、家庭、单位、地区等,都有很大的变异性,因此只能从统计的角度去考察,我们常说,某某措施,某某政策,对大多数人是有利的,这就是一种统计性规律,因为这种“有利”是指对大多数,而非一切人。
已有 1 人评分经验 收起 理由
happy_287422301 + 100 补偿

总评分: 经验 + 100   查看全部评分

135
gdczlhd 发表于 2010-10-20 02:15:31
统计学在其他领域中的应用,我们还可以举出很多,此处不一一列举了。

统计学的发展前沿

    20世纪下半叶以来,统计学界就不时地讨论到“统计学未来发展方向”这个问题。图基在1962年提出“数据分析”的一个核心的观点就是主张淡化数理统计规范③。现在我们有一些统计方法,它用起来有较好的效果,但在理论上并没有搞清楚其错误或偏差的可能性或数量有多大;另外,随着科技的发展,不断提出一些更复杂的模型,以我们现有的知识水平,没有可能对之做出完全符合上述规范的处理,而只能退而求其次,寻求一种在实用上可行的解法。

    正如中科院院士、已故统计学家陈希孺指出:由于统计学是一门有广泛应用的学科,应用问题的多面性,要求不拘一格的处理方法,应用效果的多目标性以及统计问题的“不完全信息”的性质,也决定了统计方法的发展不致受某一种思想所支配,因此,至少在可以预见的将来,统计学的进展将是一种“多元”的局面,不会出现某种趋势占绝对优势的情况。

     参考文献

    [1] 《关于经济统计学若干问题的思考》 曾五一 《统计研究》 1999年11期

    [2] 《统计学》 贾俊平,金永进著,中国人民大学出版社,2004

    [3] 《中国古代的统计分析》 莫曰达 《统计研究》 2003年07期

    注释

    ① 《周易•系辞下》

    ② 约翰-格朗特 (John Graunt,1620-1674) 著,这是一本关于人口数量变动规律以及如何处理人口统计分析生命表;提出了统计人口推算公式。

    ③ 由于统计学处理的是带随机误差的数据,由分析这种数据,得出的结论就有可能出错或不准确,出错的可能性的大小,不准确的程度如何,需要用概率论的概念和方法作定量的刻画,在研究统计问题时,必须把这作为一个目标,朝这个方向努力,这就是现行数理统计学的规范。

136
benben929 发表于 2010-10-20 02:18:05
写的好,这活动好

137
jiezhou929 发表于 2010-10-20 02:18:52
统计学的历史
统计学的英语词statistics是源于现代拉丁语statisticum collegium(国会)以及意大利语statista(国民或政治家)。德语Statistik,最早是由Gottfried Achenwall(1749)所使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。在十九世纪统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进到英语世界。

因此,统计学的初衷是作为政府(通常是中央政府)以及管理阶层的工具。它大量透过国家以及国际统计服务搜集国家以及本土的资料。另外依照各方面,普查则提供关母体的资讯。

统计背后牵涉到更多数学导向的领域,如机率,或是从经验科学(特别在天文学)中获得的经验证据设定估计参数。在今日的世界里统计已经被使用在不仅仅是国家或政府的事务,更延伸到商业,自然以及社会科学,医疗等甚至更多方面。

因为统计学拥有深厚的历史以及广泛的应用性,统计学通常不只被认为是数学所处理的对象,而是与数学本身的哲学定义与意义有密切的关联。许多知名的大学拥有独立的数理统计学系。统计学也在如心理学,教育以及公共卫生学系中被视为是一门主科。

138
nazam 发表于 2010-10-20 02:20:50
有人说,世界上恶心的事有三类:第一,谎言,第二,该死的谎言,第三,统计数字。统计的本来目的应该是力争真实的反映现实。为得到真实的统计资料而纪念统计日。
已有 1 人评分经验 热心指数 收起 理由
happy_287422301 + 40 + 1 精彩帖子

总评分: 经验 + 40  热心指数 + 1   查看全部评分

139
teddycyd 发表于 2010-10-20 02:23:42
The best thing about being a statistician is that you get to play in everyone's backyard.
John Tukey
任逍遥 梦远方
http://blog.sina.com.cn/teddycyd

140
jiezhou929 发表于 2010-10-20 02:26:34
统计学的重要作用是可以在杂乱无章的数据中发现规律,从而指导人们的行动。
已有 1 人评分学术水平 收起 理由
happy_287422301 + 2 我很赞同

总评分: 学术水平 + 2   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-15 18:17