你好,欢迎来到经管之家 [登录] [注册]

设为首页 | 经管之家首页 | 收藏本站

您的位置:

人大经济论坛

> 统计学
  • Statistics Books 统计学经典数据汇总

    BooksAnalysisofVarianceGeneralIssuesinANOVAComputer-AssistedResearchDesignandAnalysisbyBarbaraTabachnickandLindaFidellDesignandAnalysis:AResearcher'sHandbook,FourthEditionbyGeoffreyKeppelandThomasWickensDesignandAnalysis:AResearcher'sHandbook,ThirdEditionbyGeoffreyKeppelExperimentalDesign:ProceduresfortheBehavioralSciences,FourthEditionbyRogerKirkExperimentalDesign:ProceduresfortheBehavioralSciences,ThirdEditionbyRogerKirkDesigningExperimentsandAnalyzingData,SecondEditionbyScottMaxwellandHaroldDelaneyDesigningExperimentsandAnalyzingDatabyScottMaxwellandHaroldDelaneyStatisticsforExperimenters:AnIntroductiontoDesign,DataAnalysisandModelBuildingbyGeorgeE.P.Box,WilliamG.HunterandJ.StuartHunterIntroducingANOVAandANCOVA:AGLMApproachbyAndrewRutherfordIntroductiontoAnalysisofVariance:Design,AnalysisandInterpretationbyJ.RickTurnerandJulianF.ThayerAppliedLinearStatisticalModelsbyNeter,Kutner,NachtsheimandWasserman(locatedinregressionsection)StatisticalPrinciplesinExperimentalDesign,SecondEditionbyJ.B.WinerAppliedStatistics:AnalysisofVarianceandRegressionbyOliveJeanDunnandVirginiaA.ClarkStatisticalGroupComparisonbyTimFutingLiaoComponentsofVariancebyD.R.CoxandP.JSolomonSpecificIssuesinANOVAInteractionEffectsinFactorialAnalysisofVariancebyJamesJaccardEffectSizesforANOVADesignsbyJoseM.CortinaandHosseinNouriMultipleComparisons:TheoryandMethodsbyJasonC.HsuMultipleComparisonProceduresbyLarryE.ToothakerAnalysisofMessyData,VolumeIII:AnalysisofCovarianceGeorgeA.MillikenDallasE.Johnson(OnlineOnly,UCOnly)AnalysisofPretest-PosttestDesignsbyPeterL.Bonate(OnlineOnly,UCOnly)BayesianMethodsBayesianStatistics:AnIntroduction,ThirdEditionbyPeterM.LeeBayesandEmpiricalBayesMethodsforDataAnalysis,SecondEditionbyBradleyPCarlinThomasALouis(OnlineOnly,UCOnly)BayesianMethods:ASocialandBehavioralSciencesApproachbyJeffGillBayesianInferenceandDecision,SecondEditionbyRobertL.WinklerBayesianTheorybyJoséM.BernardoandAdrianF.M.SmithBayesianStatisticalModelingbyPeterCongdonBayesianDataAnalysis,SecondEditionbyAndrewGelman,JohnB.Carlin,HalS.SternandDonaldB.RubinKendall'sAdvancedTheoryofStatisticsVolume2B:BayesianInference,SecondEditionbyAnthonyO'HaganandJonathanForsterMarkovChainMonteCarlo:StochasticSimulationforBayesianInferencebyDaniGamermanBootstrap,ResamplingandRobustMethodsBootstrapping:ANonparametricApproachtoStatisticalInferencebyChristopherMooneyandRobertDuvalAnIntroductiontotheBootstrapbyBradleyEfronandRobertTibshiraniTheJackknifeandBootstrapbyJunShaoandDongshengTuPermutationTests:APracticalGuidetoResamplingMethodsforTestingHypothesesbyPhillipGoodResamplingMethods:ApracticalguidetodataanalysisbyPhillipGoodRandomization,BootstrapandMonteCarloMethodsinBiologybyBryanJ.ManlyDataAnalysisbyResamplingbyCliffordE.LunneborgBootstrapMethods:APractitioner'sGuidebyMichaelR.ChernickResampling:TheNewStatisticsbyJulianL.SimonSecondEdition(DownloadOnly!)ResamplingMethodsforDependentDatabyS.N.LahiriMonteCarloSimulationbyChristopherZ.MooneyCommunicationBestPracticesforTeachingStatisticsandResearchMethodsintheBehavioralSciencesEditedbyDanaS.Dunn,RandolphA.Smith,andBernardC.BeinsTheCognitiveStyleofPowerPointbyEdwardR.TufteDisplayingYourFindings:APracticalGuideforCreatingFigures,PostersandPresentationsbyAdelheidA.M.NicolandPennyM.PexmanPresentingYourFindings:APracticalGuideforCreatingTablesbyAdelheidA.M.NicolandPennyM.PexmanHowtoReportStatisticsinMedicine:AnnotatedGuidelinesforAuthors,EditorsandReviewers,SecondEditionbyThomasA.LangandMichelleSecicLearningandTeachingontheWorldWideWebeditedbyChristopherR.WolfeProposalsThatWork:AGuidetoPlanningDissertationandGrantProposals,FourthEditionbyLawrenceF.Locke,WaneenWyrickSpirdusoandStephenJ.SilvermanSecretsforaSuccessfulDissertationbyJacquelineFitzpatrick,JanSecristandDebraJ.WrightSpeakingaboutScience:AManualforCreatingClearPresentationsbyScottMorganandBarrettWhitenerSurvivingYourDissertation:AComprehensiveGuidetoContentandProcess,ThirdEditionbyKjellErikRudestamandRaeR.NewtonWinningGrants:StepbyStep,SecondEditionbyMimCarlsonWritingtheNIHGrantProposal:AStep-by-stepGuidebyWilliamGerinDataMiningDataMiningTechniquesforMarketing,Sales,andCustomerSupportbyMichaelJ.A.BerryandGordonLinoffMasteringDataMining:TheArtandScienceofCustomerRelationshipManagementbyMichaelJ.A.BerryandGordonS.LinoffTheElementsofStatisticalLearning:DataMining,Inference,andPredictionbyTrevorHastie,RobertTibshiraniandJeromeFriedmanHandbookofDataMiningEditedbyNongYeEconomicsandTimeSeriesTime-SeriesForecastingbyChrisChatfield(OnlineOnly,UCOnly)TheAnalysisofTimeSeries:AnIntroductionbyChrisChatfieldUsingEconometrics:APracticalGuide,FourthEditionbyA.H.StudenmundIntroductoryEconometrics:AModernApproach,SecondEditionbyJeffreyM.WooldridgeIntroductoryEconometrics:AModernApproachbyJeffreyM.Wooldridge(courtesyoftheFacultyMicroResourceCenter'sGSAProgram,aunitofBostonCollegeAcademicTechnologySupport)AGuidetoEconometrics,FifthEditionbyPeterKennedyEconometricsbyFumioHayashiEconometricAnalysisofCrossSectionandPanelDatabyJeffreyM.WooldridgeSolutionManualandSupplementaryMaterialsforEconometricAnalysisofCrossSectionalandPanelDatabyJeffreyM.WooldridgeEconometricAnalysis,FifthEditionbyWilliamGreeneEconometricAnalysis,FourthEditionbyWilliamGreeneMicroeconometrics:MethodsandApplicationsbyA.ColinCameronandPravinK.TrivediEconometricMethods,FourthEditionbyJackJohnstonandJohnDinardoEconometricAnalysisofPanelDataSetsbyBadiH.BaltagiAnIntroductiontoTimeSeriesAnalysisandForecasting:withApplicationsofSASandSPSSbyRobertA.YaffeeandMonnieMcGeeElementsofForecastingbyFrancisX.Diebold(seealsoexamplessolvedusingRATS)PanelDataEconometrics:Methods-of-MomentsandLimitedDependentVariablesbyMyoung-jaeLeeAnalysisofPanelData,SecondEditionbyChengHsiaoEstimationandInferenceinEconometricsbyDavidsonandMackinnonNonparametricEconometricsbyAdrianPaganandAmanUllahEconomicsandDataAnalysisforDevelopingCountriesbyChandanMukherjee,HowardWhiteandMarcWuytsEconometricTheorybyJamesDavidsonEpidemiologyModernEpidemiologybyKennethRothmanandSanderGreenlandEpidemiology:AnIntroductionbyKennethJ.RothmanBiostatisticalMethodsinEpidemiologybyStephenC.NewmanStatisticalMethodsinCancerResearch:TheAnalysisofCase-ControlStudiesbyN.E.BreslowandN.DayStatisticalModelingforBiomedicalResearchersASimpleIntroductiontotheAnalysisofComplexDatabyWilliamD.DupontExperimentalDesignandAnalysisEmpiricalDirectionsinDesignandAnalysisbyNormanH.AndersonExperimentalandQuasi-experimentalDesignsforGeneralizedCausalInferencebyWilliamR.Shadish,ThomasD.CookandDonaldT.CampbellExperimentalandQuasi-experimentalDesignsforResearchbyDonaldT.CampbellandJulianC.StanleyValidityandSocialExperimentation:DonaldCampbell'sLegacy,VolumeIEditedbyLeonardBickmanResearchDesign:DonaldCampbell'sLegacy,VolumeIEditedbyLeonardBickmanSocialMeasurementbyDonaldT.CampbellandM.JeanRussoUnobtrusiveMeasures,RevisedEditionbyEugeneJ.Webb,DonaldT.Campbell,RichardD.SchwartzandLeeSechrestMeasurement,Design,andAnalysisbyElazarJ.PedhazurandLioraPedhazurSchmelkinHowToDesignandReportExperimentsbyAndyFieldandGrahamHoleStatisticsasPrincipledArgumentbyRobertP.AbelsonQuasi-Experimentation:DesignandAnalysisIssuesforFieldSettingsbyThomasD.CookandDonaldT.CampbellCausality:Models,ReasoningandInferencebyJudeaPearlBeyondSignificanceTesting:ReformingDataAnalysisMethodsinBehavioralResearchbyRexB.KlineRivalHypotheses:AlternativeInterpretationsofDataBasedConclusionsbySchuylerW.HuckandHowardM.SandlerStatisticalIllusions:ProblemsbySchuylerW.HuckandHowardM.SandlerStatisticalIllusions:SolutionsbySchuylerW.HuckandHowardM.SandlerHowtoThinkStraightaboutPsychology,SeventhEditionbyKeithE.StanovichDesignandAnalysisofEcologicalExperiments,EditedbySamuelM.ScheinerandJessicaGurevitchStatisticsforExperimenters:Design,InnovationandDiscovery,SecondEditionbyGeorgeE.P.Box,J.StuartHunterandWilliamG.HunterFactorAnalysisAnEasyGuidetoFactorAnalysisbyPaulKlineMakingSenseofFactorAnalysis:TheUseofFactorAnalysisforInstrumentDevelopmentinHealthCareResearchbyMarjorieA.Pett,NancyR.LackeyandJohnJ.SullivanFactorAnalysisat100:HistoricalDevelopmentsandFutureDirectionseditedbyRobertCudeckandRobertC.MacCallumExploratoryandConfirmatoryFactorAnalysis:UnderstandingConceptsandApplicationsbyBruceThompsonAFirstCourseinFactorAnalysisbyAndrewL.ComreyModernFactorAnalysis,SecondEdition,RevisedbyHarryH.HarmanConfirmatoryFactorAnalysisforAppliedResearchbyTimothyA.BrownGeneralizedLinearModelsAnIntroductiontoGeneralizedLinearModels,SecondEditionbyAnnetteJ.DobsonReaditOnline!(UCOnly)AnIntroductiontoGeneralizedLinearModelsbyGeorgeH.DuntemanandMoon-HoR.HoGeneralized,Linear,andMixedModelsbyCharlesE.McCullochandShayleR.SearleGeneralizedEstimatingEquationsbyJamesW.HardinandJosephM.HilbeGeneralizedLinearModels:AUnifiedApproachbyJeffGillGeneralizedLinearModels,SecondEditionbyP.McCullaghandJ.A.NelderGeneralizedLinearModels:AnAppliedApproachbyUlfOlssonGeneralizedLinearModels:AnAppliedApproachbyJohnP.HoffmannGeneralizedLinearModelswithApplicationsinEngineeringandtheSciences,SecondEditionbyRaymondH.Myers,DouglasC.Montgomery,G.GeofferyVining,andTimothyJ.RobinsonGraphicsEnvisioningInformationbyEdwardR.TufteGraphicsofLargeDatasets:VisualizingaMillionbyAntonyUnwin,MartinTheusandHeikeHofmannTheVisualDisplayofQuantitativeInformationbyEdwardR.TufteVisualExplanationsbyEdwardR.TufteVisualandStatisticalThinking:DisplaysofEvidenceforMakingDecisionsbyEdwardR.TufteVisualizingDatabyWilliamS.ClevelandIntroductoryStatisticsIntroductiontothePracticeofStatisticsbyMooreandMcCabeStatisticsforPsychologistsbyWilliamHaysHands-onSociology,ThirdEditionbyWilliamFeigelmanandYih-JinYoungQuantitativeDataAnalysis:DoingSocialResearchtoTestIdeasbyDonaldJ.TreimanCommonErrorsinStatistics(andHowtoAvoidThem)byPhillipI.GoodandJamesW.HardenAPrimerofEcologicalStatisticsbyNicholasJ.GotelliandAaronM.EllsionYourStatisticalConsultant:AnswerstoYourDataAnalysisQuestionsbyRaeR.NewtonandKjellErikRudestamBiostatistics:AMethodologyfortheHealthSciences,SecondEditionbyGeraldvanBelle,LloydD.Fisher,PatrickL.HeagertyandThomasLumley...................................

  • 关于学生在统计学考试答空白卷的几点思考

    关于学生在统计学考试答空白卷的几点思考首先,相信很多人都不愿意学习数学或者是统计学,对于含有数字、计算类型的科目和考试都是不愿意接受的。这里我非常的理解大家,因为大家受到的传统教育告诉我们,数学很难,而且学习起来是很辛苦的,你们的老师并没有清楚的向你们传递出一种信号,就是数学是无处不在的,数学在你的生活里随处可见,你其实早已经被数学包围,而又浑然不知。大部分学生在学习数学的时候,基本学习思路就是跟着老师学习,掌握公式,如何计算,如何统计等,但是并没有想过你学习到了这些公式,这些统计方法后你能做什么样的事情,作为老师,本是有职责告诉大家学习了这些数学能为大家的日常学习和生活带来什么样的便捷才好,只是大部分的数学老师,出生数学专业,将数学与实际生活结合的也并不是非常紧密,为了完成教学目的,也只得将相应的数学公式、符合、计算方法传授给大家,这也就是为什么大家学习数学而不觉得数学有意义。其实作为本科生来说,如果你觉得学习高等数学、统计学是为了锻炼各位的思维能力就大错特错了,各位要有意识的将自己学习到的数学原理、方法在实际生活中应用出来,最直接的就是大家在自己的学习材料中看到的各种实际应用题目的解答,也可以说是简单的建模,大家通过对例题会课后习题的解答的时候,相信大部分的人在做题目的时候想到的也就是如何解决这个题目而已,其实这是远远不够的。在我自己所接受的本科教育阶段的学生,以及我现在所教受的本科生中,很少有学生具备思维的迁移能力,而且我觉得是会终身受益的。各位,你们所学习到的经济学、管理学、经营信息系统方面的各个专业课都会涉及很多的数学模型,这些模型都是从数学中来的,你们的经常上网用到的QQ软件,网站,论坛,淘宝,无时无刻都在搜集着你的个人用户信息,这些公司会对大量的用户信息进行挖掘从而制定相应的营销策略,只是你们并不知道这一切信息也是要通过数学分析方法来做的。你们用到的电子邮箱,可以有效的过滤一些垃圾邮件,这个是靠数学里面的贝叶斯定律来开发出来的功能,这样的东西数不胜数了。这里给大家学习数学提点小小的建议吧,如果你觉得你这辈子都不用学数学了,当然是可以的,只是你要知道,你的生活里,数学从未离开。老师的建议是锻炼自己的理解力和思考力,仅此而已。如果你想有更高的发展或有更好的职位,那么数学及其相关学科,就请不要忽视它们了。在学习数学相关课程的时候,一定要培养自己的思维迁移能力,不要就问题解决问题才好,要知道你就这个问题解决了这个问题之后,如何利用相同的方法或类似的方法去解决其他的问题,这个才是关键,而这样的能力是各位以后走向研究生或工作岗位后,不是不可缺少,而是不可多得的能力,是你自己的一种隐性优势。当你的理解能力,思考能力提高上来后,无论什么样的学科都会给你带来爆炸式的思考,思绪将会被一直迁移,引申到各行各业,各个学习领域当中去,当你的想法一发不可收拾的时候,你的创造力和学习力将成为你宝贵的财富。2013年6月21日齐齐哈尔

  • 统计学复习资料总结

    第一章统计数据信息处理的方法:1.描述统计方法;2.推断统计方法统计的含义:统计工作、统计资料、统计学政治算数学派:威廉。配第;国势学派:康令;数理统计学派:凯特勒统计研究的对象具有如下特点:1.数量性2.具体性3.总体性4.社会性统计工作的基本任务:服务与监督基本方法:1.大量观察法2.综合指标法3.统计分组法总体:即统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别事物的整体总体单位:构成统计总体的个别单位标志:表明总体单位特征的名称品质标志:说明总体单位质的特征,用属性表示数量标志:说明总体单位量的特征,用数量表示,数量标志的具体体现:标志值指标:说明总体的综合数量特征。1.按结构分:指标名称、指标数值2.按内容分:数量指标(绝对数)、质量指标(相对数、平均数)标志与指标的联系和区别:区别:1.标志(指数量标志)不一定经过汇总,可直接取得;而指标(指数量指标)一定经过汇总才能取得。2.标志一般不具备时间、地点等条件;但完整的统计指标一定要讲明时间、地点、范围联系:1.有些数量标志值汇总可以得到指标的数值。既可指总体各单位标志量的总和,也可指总体单位数的总和2.数量标志与指标之间存在变换关系。随着统计目的的改变,如果原来的总体单位变成了统计总体,则与之相对应的数量标志就成了统计指标变异:是标志在各总体单位具体表现的差异——一般意义上的变异;严格说,变异指品质标志的不同表现变量:指可变的数量标志。变量的具体数值表现即变量值(离散变量、连续变量)统计指标体系:研究社会经济现象的一系列相互联系的统计指标为统计指标体系流量:即一定时期内生产的产品和劳务而取得的收入或支出的总量。是时期指标。存量:即某一时点上过去生产与积累起来的产品、货物、存储、资产负债的结存数。是时点的指标。流量之比、存量之比及流量与存量之比既不是流量也不是存量。第二章统计调查:按照统计任务的要求,运用科学的调查方法,有组织地向社会实际搜集资料的过程统计调查的基本要求:准确性、及时性统计调查设计步骤:1.确定调查目的;2.确定调查对象和调查单位;3.拟定调查提纲和制定调查表;4.确定调查时间;5.制定调查的组织实施计划。调查对象:就是我们需要进行研究的总体单位,即调查总体。调查单位:进行登记的标志表现的直接承担者。拟定调查项目注意的原则:1)调查项目要少而精2)调查项目含义要明确3)尽可能做到各个调查项目之间有一定的联系调查表(调查问卷)分为:一览表和单一表特点:经济性、广泛性、匿名性、客观性、灵活性调查时间:指调查资料所属的时间调查期限:指调查工作的起讫时间统计调查的具体方法:直接观察法、报告法、采访法、网上调查法(另外:电话调查、座谈会、个别深入访谈等)统计调查的分类:1)按调查范围:全面调查和非全面调查2)按登记事物的连续性:经常调查和一时调查3)按组织形式:统计报表和专门调查统计分组:把同质总体中的具有不同特点的单位分开,从而正确地认识事物的本质及其规律性。作用:1)(类型分组)揭露社会经济现象的类型,反映各类型的特点。2)(结构分组)说明社会经济现象的内部结构3)(分析分组)研究经济现象之间的依存关系原则:1)根据研究问题的目的来选择2)要选择最能反映被研究现象本质特征的标志3)要结合现象所处的具体历史条件或经济条件来选择分组标志的总类1)按分组标志的特征不同分:品质标志分组(分为简单分组和复杂分组)数量标志分组(分单项式数量分组和组距式分组)2)按总体所选择标志的个数分:简单分组(按一个标志分组)和复合分组(两个以上)分配数列:统计总体按照某一标志分组以后,用以反映总体各单位分配情况的统计数列,称为分配数列,又可称次数分配或次数分布种类:按分组标志特征分:品质数列和变量数列上组限不在内:适用于越大越好的变量下组限不在内:适用于越小越好的变量对于不连续变量,组与组间是间断的以下累计次数(上限)——即较小制累计。每一组的累计次数表示小于该组上限(变量)值的次数共有多少。以上累计次数(下限)——即较大制累计。每一组的累计次数表示大于该组下限(变量)值的次数共有多少。统计表:1)从形式上看:统计表由总标题、横行标题、纵栏标题、指标数值构成2)从内容上看:统计表由主词(说明总体或总体分组)和宾词(用那些指标数值来说明总体或总体的分组)两部分构成分类:1)简单表:总体未分组2)分组表:总体按一个标志进行分组3)复合表:总体按二个或二个以上标志进行复合分组统计表的编制原则:1.总标题须简明扼要表达出全表的内容;2.各标题要确切反映表的内容,且表格安排合理;3.指标数值要位数对齐,合计或总计一般放在表的尾部;4.对指标内容作必要说明时,可加注在表的下方;5.表的上下边线(基线)用粗实线或双线,表的两边是开口式;6.纵栏较多时编栏号,指标数值栏要注明计量单位和资料表示的时间。总原则:合理、科学、实用、简练、美观。第三章综合指标:绝对指标、相对指标、平均指标总量指标:反映社会经济现象一定时间、地点、条件下总的规模、水平的统计指标。变现形式是绝对数,也可以是绝对差数作用:1)总量指标能反映一个国家的基本国情和国力,反映某部门、单位等人、财、物的基本数据2)总量指标是进行决策和科学管理的依据之一3)总量指标是计算相对指标和平均指标的基础总量指标的分类:1)按反映内容的不同分:总体单位总量(说明总体的单位数数量);标志总量(说明总体中某个标志值总和的量)2)反映的时间状况不同分:时期指标:反映现象在某一时期发展过程的总数量;时点指标:反映现象在某一时刻的状况计算原则:1.现象的同类性;2.明确的统计含义;3.计量单位必须一致计量单位:1.实物单位;2.价值单位;3.劳动单位(不同企业的劳动量指标不具可比性,劳动量指标只限于企业内部使用)相对指标:两个有联系的绝对指标之比表现形式:有名数和无名数(系数或倍数、成数、百分数、千分数)强度相对数的数值有两种方法:1.一般用复名数;2.也有少数用百分数或千分数(产值利润率、资金利润率)运用相对指标的原则:1)注意二个对比指标的可比性2)相对指标要和总量指标结合起来运用3)多种相对数结合运用4)在比较二个相对数时,是否适宜相除再求一个相对数,应视情况而定。若除出来有实际意义,则除;若不宜相除,只宜相减求差数,用百分点表示之。(百分点—即百分比中相当于百分之一的单位)平均指标:平均指标是指在同质总体内将各单位某一数量标志的差异抽象化,用以反映总体在具体条件下的一般水平特点:1.数量抽象性;2.集中趋势代表性作用:1)比较作用:同类现象在不同空间的对比;同一总体在不同时间上的比较2)利用平均指标可以分析现象之间的依存关系3)利用平均指标可以进行数量上的推算,还可以作为论断事物的一种数量标准或参考加权算数平均数与简单算术平均数不同点:加权算术平均数受两因素影响:1)变量值大小的影响2)次数多少的影响简单算术平均数只反映变量值大小这一因素的影响加权平均数的特点:1)算术平均数适合用代数方法运算,因此运用比较广泛;2)易受极端变量值的影响,使的代表性变小;受极大值的影响大于受极小值的影响;3)当组距数列为开口组时,由于组中点不易确定,使的代表性也不很可靠。众数存在的条件:1)只有总体单位数比较多,而又有明显的集中趋势才存在众数2)在单位数很少,或单位数虽多但无明显集中趋势时,计算众数是没有意义的中位数的特点:1)中位数不受极端值及开口组的影响,具有稳健性2)各单位标志值与中位数离差的绝对值之和是个最小值3)对某些不具数学特点或不能用数字测定的现象,可用中位数求其一般水平平均指标的运用原则:1)平均指标只能适用于同质总体2)用组平均数补充说明总平均数3)用分配数列补充说明平均数标志变动度:标志变动度是指总体中各单位标志值差别大小的程度,又称离散程度或离中程度作用:1)标志变动度是评价平均数代表性的依据2)标志变动度可用来反映社会生产和其他社会经济活动过程中的均衡性或协调性,以及产品质量的稳定性种类:全矩、四分位差、平均差、标准差、离散系数标准差的作用:1)度量差异程度2)测定分布偏度3)计算标准分离散系数:是各种变异指标与平均数的比率。反映总体各单位标志值的相对离散程度,最常用的是标准差系数。第四章:动态数列:又称时间数列。它是将某种统计指标,或在不同时间上的不同数值,按时间先后顺序排列起来,以便于研究其发展变化的水平和速度,并以此来预测未来的一种统计方法。两个基本要素构成:1.时间,即现象所属的时间;2.不同时间上的统计指标数值,即不同时间上该现象的发展水平种类:指标数值的不同分:1.绝对数动态数列(时期数列、时点数列)2.相对数动态数列3.平均数动态数列时期数列特点:1)数列中各个指标值是可加的2)数列中每个指标值的大小随着时期的长短而变动3)数列中每个指标值通常是连续不断的登记取得的时点指标特点:1)数列中各个指标是不能相加的2)数列中每个指标值的大小与时间间隔的长短没有直接关系3)数列中的每个指标值通常是按期登记一次取得的动态数列的编制原则:(遵守可比性)1)注意时间的长短应统一2)总体范围应一致3)指标的经济内容应相同4)指标的计算方法和计量单位应一致发展水平:在动态数列中,每个绝对数指标数值叫做发展水平或动态数列水平平均发展水平:是对不同时期的发展水平求平均数,统计上又叫序时平均数序时平均数与一般平均数的异同点:相同点:二者都是将现象的个别数量差异抽象化,概括地反映现象的一般水平不同点:1.计算方法不同;2.差异抽象化不同;3.序时平均数还可解决某些可比性问题平均增长量:说明社会现象在一段时期内平均每期增加的绝对数量长期趋势:就是指某一现象在一个相当长的时期内持续发展变化的趋势。(向上或向下变化)测定长期趋势的目的:1)把握现象的趋势变化2)从数量方面研究现象发展的规律性,探求合适趋势线3)测定季节变动的需要长期趋势的类型:直线趋势和非直线趋势方法:间隔扩大法、移动平均法、最小平方法测定季节变动的方法:1)按月平均法,不考虑长期趋势的影响(假定不存在长期趋势),直接利用原始动态数列来计算2)移动平均趋势剔除法,即考虑长期趋势的存在,剔除其影响后再进行计算,故常用此法第五章广义的指数:指一切说明社会经济现象数量或差异程度的相对数,如动态相对数、比较相对数、计划完成相对数等都可称为指数。狭义指数:是一种特殊的相对数,也即专指不能直接相加和对比的复杂社会经济现象综合变动程度的相对数。特点:1.综合性,2.平均性指数的作用:1)综合反映事物变动方向和变动程度2)分析多因素影响现象的总变动中,各个因素的影响大小和影响程度3)研究事物在长时间内的变动趋势4)对多指标的变动进行综合测评指数的种类:1)说明现象的范围:个体指数和总指数(总体指数是个体指数的平均数)2)统计指标的内容:数量指标指数和质量指标指数a)数量指标指数:说明总体规模变动情况的指数b)质量指标指数:说明总体内涵数量变动情况的指数3)指数表现形式:综合指数、平均指标指数和平均指标对比指数4)指数所说明的因素多少:两因素指数和多因素指数5)所采用基期不同:定基指数和环比指数总指数的计算形式:综合指数和平均指标指数同度量因素的作用:1.同度量作用2.权数作用总变动指数=因素指数的乘积总量动态指标=数量指标指数*质量指标指数第六章抽样调查的意义:按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体做出数量上的推断分析。抽样调查的适用范围:1)实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物2)虽可进行全面调查观察,但比较困难或并不必要3)对普查或全面调查统计资料的质量进行检查和修正4)抽样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况5)利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍抽样调查与全面调查不能相互替代全及总体:所要调查观察的全部事物。总体单位数用N表示。抽样总体:抽取出来调查观察的单位。抽样总体的单位数用n表示。全及指标:全及总体的那些目标抽样指标:抽样总体的那些目标抽样框:即总体单位的名单,是指对可以选择作为样本的总体单位列出名册或顺序编号,以确定总体的抽样范围和结构。样本数:指从总体中可能抽取的样本的数量样本容量:指一个样本所包括的单位数类型抽样类型的划分:1)必须有清楚的划类界限2)必须知道各类中的单位数目和比例3)分类型的数目不宜过多类型抽样的好处:样本代表性高,抽样误差小,抽样调查成本低。如果误差要求相同的话,抽样数目可以减少机械抽样按样本单位抽选的方法分:1.随机起点等距抽样2.半距起点等距抽样3.对称等距抽样机械抽样的好处:1.抽样过程大大简化,减轻抽样的工作量;2.如果按有关标志排队,可以缩小抽样误差,提高抽样推断的效果整群抽样的好处:组织工作比较方便,使用于一些特殊的研究对象。不足:一般比其他抽样方式的抽样误差大(都采用不重复抽样)整群抽样的作用:1.当总体缺乏包括全部总体单位的抽样框,无法进行抽选时必须采用整群抽样2.比较方便和节约费用抽样误差的影响因素:1)全及总体标志变异程度2)抽样单位数目的多少3)不同的抽样方式4)不同的抽样组织形式抽样误差:是所有可能出现的样本指标的标准差,它是由于抽样的随机性而产生的样本指标与总体指标之间的平均离差取得σ的途径有:1)用过去全面调查或抽样调查的资料,若同时有n个σ的资料,应选用数值较大的那个2)用样本标准差S代替全及标准差σ3)在大规模调查前,先搞个小规模的试验性的调查来确定S,代替σ4)用估计的方法。点估计:就是由样本指标直接代替全及指标,不考虑任何抽样误差因素。区间估计:是根据样本指标和抽样误差去推断全及指标的可能范围,它能说清楚估计的准确度和把握程度全及平均数(成数)=抽样平均数(成数)影响必要抽样单位数的确定:1)总体各单位的标志变异程度2)允许误差的大小3)概率度t的数值4)抽样方式和组织形式抽样方式设计的基本原则:1)保证实现抽样随机性原则2)保证实现最大的抽样效果原则第七章函数关系:它反映着现象之间存在着严格的依存关系,也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来相关关系:它反映着现象之间的数量上不严格的依存关系,也就是说两者之间不具有确定性的对应关系,这种关系有二个明显特点:1.现象之间确实存在数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;2.现象之间的这种依存关系是不严格的,即无法用数学公式表示。分类:1.按相关关系涉及的因素多少来分,可分为:单相关和复相关2.按相关关系的性质来分,可分为:正相关和负相关3.按相关关系的形式来分,可分为:直线相关和曲线相关4.按相关程度分,可分为:完全相关、不完全相关和不相关相关分析的主要任务:一方面,研究现象之间关系的密切程度,即相关分析;另一方面,研究自变量与因变量之间的变动关系,即回归分析。相关分析的主要内容:1.判断社会经济现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点;2.确定相关关系的密切程度;3.测定两个变量之间的一般关系值;4.测定因变量估计值和实际值之间的差异,用以反映因变量估计值的可靠程度;5.相关系数的显著性检验。相关系数:是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的综合性指标。一般用符号r表示对r的解释:1.r取正值或负值决定于分子协方差2.r的绝对值,在0与1之间3.r的绝对值大小,可说明现象之间相关关系的紧密程度。简单线性相关分析的特点:1.相关关系中,两个变量不必定出哪个是自变量,哪个是因变量,因此,相关的两个变量都是随机变量2.相关关系中只能计算出一个相关系数r简单直线回归方程建立的步骤:1.确定自变量x和因变量y2.计算x2、xy、Σx、Σy、Σx2、Σxy3.代入公式,先求b,再求a简单直线回归分析的主要特点:1.直线回归分析时,要根据研究目的,在两个变量之间确定哪个是自变量,哪个是因变量2.在两个现象互为根据的情况下,可以有两个回归方程判定系数的特性:1.具有非负性2.取值范围为3.是样本观测值的函数,它也是一个统计量4.在一元线性回归模型中,判定系数是单相关系数的平方估计标准误差:就是用来说明回归方程推算结果的准确程度的统计分析指标,以绝对值表示,其数值越小,说明推算结果的准确程度越高,回归直线的代表性也越大。Sy和r的异同点:1.相同点:都具有说明相关关系密切程度的作用;2.不同点:(1)r越大越好,而Sy越小越好;(2)r用相对数表现,密切程度的概念比较明确Sy用绝对数表现,关系密切的程度表示得不那么明显;(3)r能说明正、负相关,Sy不能说明。

  • 统计学和数据挖掘区别

    自从大数据这个概念提出后,数据挖掘火了,统计学也火了。不得不说,这两个专业在某些方面的确有共性,但始终是有所区别的。在此,楼主找了一篇介绍两者区别的文章,让大家一读。1.简介统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导致了反感。统计学有着正统的理论基础(尤其是经过本世纪的发展),而现在又出现了一个新的学科,有新的主人,而且声称要解决统计学家们以前认为是他们领域的问题。这必然会引起关注。更多的是因为这门新学科有着一个吸引人的名字,势必会引发大家的兴趣和好奇。把“数据挖掘”这个术语所潜在的承诺和“统计学”作比较的话,统计的最初含义是“陈述事实”,以及找出枯燥的大量数据背后的有意义的信息。当然,统计学的现代的含义已经有很大不同的事实。而且,这门新学科同商业有特殊的关联(尽管它还有科学及其它方面的应用)。本文的目的是逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关联的一些难题。首先,我们注意到“数据挖掘”对统计学家来说并不陌生。例如,Everitt定义它为:“仅仅是考察大量的数据驱动的模型,从中发现最适合的”。统计学家因而会忽略对数据进行特别的分析,因为他们知道太细致的研究却难以发现明显的结构。尽管如此,事实上大量的数据可能包含不可预测的但很有价值的结构。而这恰恰引起了注意,也是当前数据挖掘的任务。2.统计学的性质试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。相反,我要关注统计学不同于数据挖掘的特性。差异之一同上节中最后一段提到的相关,即统计学是一门比较保守的学科,目前有一种趋势是越来越精确。当然,这本身并不是坏事,只有越精确才能避免错误,发现真理。但是如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法,我是不同意这个观点的。尽管统计学确实以数学为基础(正如物理和工程也以数学为基础,但没有被认为是数学的分支),但它同其它学科还有紧密的联系。数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不是象计算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明)。统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合,已经从机器学习那里继承了实验的态度。这并不意味着数据挖掘工作者不注重精确,而只是说明如果方法不能产生结果的话就会被放弃。正是统计文献显示了(或夸大了)统计的数学精确性。同时还显示了其对推理的侧重。尽管统计学的一些分支也侧重于描述,但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体。当然这也常常是数据挖掘所关注的。下面我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。然而,数据挖掘问题常常可以得到数据总体,例如关于一个公司的所有职工数据,数据库中的所有客户资料,去年的所有业务。在这种情形下,推断就没有价值了(例如,年度业务的平均值),因为观测到的值也就是估计参数。这就意味着,建立的统计模型可能会利用一系列概率表述(例如,一些参数接近于0,则会从模型中剔除掉),但当总体数据可以获得的话,在数据挖掘中则变得毫无意义。在这里,我们可以很方便的应用评估函数:针对数据的足够的表述。事实是,常常所关注的是模型是否合适而不是它的可行性,在很多情形下,使得模型的发现很容易。例如,在寻找规则时常常会利用吻合度的单纯特性(例如,应用分支定理)。但当我们应用概率陈述时则不会得到这些特性。统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型”。或许“模型”这个术语更多的含义是变化。一方面,统计学模型是基于分析变量间的联系,但另一方面这些模型关于数据的总体描述确实没有道理的。关于信用卡业务的回归模型可能会把收入作为一个独立的变量,因为一般认为高收入会导致大的业务。这可能是一个理论模型(尽管基于一个不牢靠的理论)。与此相反,只需在一些可能具有解释意义的变量基础上进行逐步的搜索,从而获得一个有很大预测价值的模型,尽管不能作出合理的解释。(通过数据挖掘去发现一个模型的时候,常常关注的就是后者)。还有其它方法可以区分统计模型,但在这里我将不作探讨这里我想关注的是,现代统计学是以模型为主的。而计算,模型选择条件是次要的,只是如何建立一个好的模型。但在数据挖掘中,却不完全是如此。在数据挖掘中,准则起了核心的作用。(当然在统计学中有一些以准则为中心的独立的特例。Gifi的关于学校的非线性多变量分析就是其中之一。例如,Gifi说,在本书中我们持这样的观点,给定一些最常用的MVA(多变量分析)问题,既可以从模型出发也可以技术出发。正如我们已经在1.1节所看到的基于模型的经典的多变量统计分析,……然而,在很多情形下,模型的选择并不都是显而易见的,选择一个合适的模型是不可能的,最合适的计算方法也是不可行的。在这种情形下,我们从另外一个角度出发,应用设计的一系列技术来回答MVA问题,暂不考虑模型和最优判别的选择。相对于统计学而言,准则在数据挖掘中起着更为核心的作用并不奇怪,数据挖掘所继承的学科如计算机科学及相关学科也是如此。数据集的规模常常意味着传统的统计学准则不适合数据挖掘问题,不得不重新设计。部分地,当数据点被逐一应用以更新估计量,适应性和连续性的准则常常是必须的。尽管一些统计学的准则已经得到发展,但更多的应用是机器学习。(正如“学习”所示的那样)很多情况下,数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过程本质上是实验性的。这和确定性的分析是不同的。(实际上,一个人是不能完全确定一个理论的,只能提供证据和不确定的证据。)确定性分析着眼于最适合的模型-建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。很多,或许是大部分统计分析提出的是确定性的分析。然而,实验性的数据分析对于统计学并不是新生事务,或许这是统计学家应该考虑作为统计学的另一个基石,而这已经是数据挖掘的基石。所有这些都是正确的,但事实上,数据挖掘所遇到的数据集按统计标准来看都是巨大的。在这种情况下,统计工具可能会失效:百万个偶然因素可能就会使其失效。如果数据挖掘的主要目的是发现,那它就不关心统计学领域中的在回答一个特定的问题之前,如何很好的搜集数据,例如实验设计和调查设计。数据挖掘本质上假想数据已经被搜集好,关注的只是如何发现其中的秘密。3.数据挖掘的性质由于统计学基础的建立在计算机的发明和发展之前,所以常用的统计学工具包含很多可以手工实现的方法。因此,对于很多统计学家来说,1000个数据就已经是很大的了。但这个“大”对于英国大的信用卡公司每年350,000,000笔业务或AT&T每天200,000,000个长途呼叫来说相差太远了。很明显,面对这么多的数据,则需要设计不同于那些“原则上可以用手工实现”的方法。这意味这计算机(正是计算机使得大数据可能实现)对于数据的分析和处理是关键的。分析者直接处理数据将变得不可行。相反,计算机在分析者和数据之间起到了必要的过滤的作用。这也是数据挖掘特别注重准则的另一原因。尽管有必要,把分析者和数据分离开很明显导致了一些关联任务。这里就有一个真正的危险:非预期的模式可能会误导分析者,这一点我下面会讨论。我不认为在现代统计中计算机不是一个重要的工具。它们确实是,并不是因为数据的规模。对数据的精确分析方法如bootstrap方法、随机测试,迭代估计方法以及比较适合的复杂的模型正是有了计算机才是可能的。计算机已经使得传统统计模型的视野大大的扩展了,还促进了新工具的飞速发展。下面来关注一下歪曲数据的非预期的模式出现的可能性。这和数据质量相关。所有数据分析的结论依赖于数据质量。GIGO的意思是垃圾进,垃圾出,它的引用到处可见。一个数据分析者,无论他多聪明,也不可能从垃圾中发现宝石。对于大的数据集,尤其是要发现精细的小型或偏离常规的模型的时候,这个问题尤其突出。当一个人在寻找百万分之一的模型的时候,第二个小数位的偏离就会起作用。一个经验丰富的人对于此类最常见的问题会比较警觉,但出错的可能性太多了。此类问题可能在两个层次上产生。第一个是微观层次,即个人记录。例如,特殊的属性可能丢失或输错了。我知道一个案例,由于挖掘者不知道,丢失的数据被记录为99而作为真实的数据处理。第二个是宏观层次,整个数据集被一些选择机制所歪曲。交通事故为此提供了一个好的示例。越严重的、致命的事故,其记录越精确,但小的或没有伤害的事故的记录却没有那么精确。事实上,很高比例的数据根本没有记录。这就造成了一个歪曲的映象-可能会导致错误的结论。统计学很少会关注实时分析,然而数据挖掘问题常常需要这些。例如,银行事务每天都会发生,没有人能等三个月得到一个可能的欺诈的分析。类似的问题发生在总体随时间变化的情形。我的研究组有明确的例子显示银行债务的申请随时间、竞争环境、经济波动而变化。至此,我们已经论述了数据分析的问题,说明了数据挖掘和统计学的差异,尽管有一定的重迭。但是,数据挖掘者也不可持完全非统计的观点。首先来看一个例子:获得数据的问题。统计学家往往把数据看成一个按变量交叉分类的平面表,存储于计算机等待分析。如果数据量较小,可以读到内存,但在许多数据挖掘问题中这是不可能的。更糟糕的是,大量的数据常常分布在不同的计算机上。或许极端的是,数据分布在全球互联网上。此类问题使得获得一个简单的样本不大可能。(先不管分析“整个数据集”的可能性,如果数据是不断变化的这一概念可能是不存在的,例如电话呼叫)当描述数据挖掘技术的时候,我发现依据以建立模型还是模式发现为目的可以很方便的区分两类常见的工具。我已经提到了模型概念在统计学中的核心作用。在建立模型的时候,尽量要概括所有的数据,以及识别、描述分布的形状。这样的“全”模型的例子如对一系列数据的聚类分析,回归预测模型,以及基于树的分类法则。相反,在模式发现中,则是尽量识别小的(但不一定不重要)偏差,发现行为的异常模式。例如EEG轨迹中的零星波形、信用卡使用中的异常消费模式,以及不同于其它特征的对象。很多时候,这第二种实验是数据挖掘的本质-试图发现渣滓中的金块。然而,第一类实验也是重要的。当关注的是全局模型的建立的话,样本是可取的(可以基于一个十万大小的样本发现重要的特性,这和基于一个千万大小的样本是等效的,尽管这部分的取决于我们想法的模型的特征。然而,模式发现不同于此。仅选择一个样本的话可能会忽略所希望检测的情形。尽管统计学主要关注的是分析定量数据,数据挖掘的多来源意味着还需要处理其它形式的数据。特别的,逻辑数据越来越多-例如当要发现的模式由连接的和分离的要素组成的时候。类似的,有时候会碰到高度有序的结构。分析的要素可能是图象,文本,语言信号,或者甚至完全是(例如,在交替分析中)科学研究资料。4.讨论数据挖掘有时候是一次性的实验。这是一个误解。它更应该被看作是一个不断的过程(尽管数据集时确定的)。从一个角度检查数据可以解释结果,以相关的观点检查可能会更接近等等。关键是,除了极少的情形下,很少知道哪一类模式是有意义的。数据挖掘的本质是发现非预期的模式-同样非预期的模式要以非预期的方法来发现。与把数据挖掘作为一个过程的观点相关联的是认识到结果的新颖性。许多数据挖掘的结果是我们所期望的-可以回顾。然而,可以解释这个事实并不能否定挖掘出它们的价值。没有这些实验,可能根本不会想到这些。实际上,只有那些可以依据过去经验形成的合理的解释的结构才会是有价值的。显然在数据挖掘存在着一个潜在的机会。在大数据集中发现模式的可能性当然存在,大数据集的数量与日俱增。然而,也不应就此掩盖危险。所有真正的数据集(即使那些是以完全自动方式搜集的数据)都有产生错误的可能。关于人的数据集(例如事务和行为数据)尤其有这种可能。这很好的解释了绝大部分在数据中发现的“非预期的结构”本质上是无意义的,而是因为偏离了理想的过程。(当然,这样的结构可能会是有意义的:如果数据有问题,可能会干扰搜集数据的目的,最好还是了解它们)。与此相关联的是如何确保(和至少为事实提供支持)任何所观察到的模式是“真实的”,它们反应了一些潜在的结构和关联而不仅仅是一个特殊的数据集,由于一个随机的样本碰巧发生。在这里,记分方法可能是相关的,但需要更多的统计学家和数据挖掘工作者的研究。原文《StatisticsandDataMining:IntersectingDisciplines》作者:DavidJ.Hand

  • 大数据和统计学矛盾?

    通常,对于新的IT关键词必定会出现“反对派”。最近,“大数据”就成为被攻击的对象,诸如“大数据失败论”等论调也明显增加。业界对大数据抱着极大的期待,这一点从大量的大数据研讨会和展示会风潮就足以证明。这些年来,除了云计算浪潮,缺乏热烈话题的IT业界而言,大数据是期待已久的大型关键词,也许大数据会成为恢复业界活力的强心剂。与此同时,日本ZF提出新的IT战略--“将行政数据向民间开发,以便不断创造新商务”。也就是说,如何有效利用数据,推动商业成功,业已成为国家战略的一环。虽然笔者既不是强烈的赞成派也不是反对派,但通过以往的采访经验,对处理数据的难度有着清醒的认识。更何况涉及到大数据,其难度显而易见。笔者周边很多人对大数据也有着各种不同的看法,提出各种问题。当然这些对于IT业界的读者而言,都是理所当然的事情,笔者说这些也许是班门弄斧了。但是,正是这些众所周知的道理通常也是非常重要不可忽视的。因此,下面笔者将重新提出大数据的“陷阱”,探讨如何才能避免运用大数据的失败。是否真正需要大量的数据首先,必须明确的一点是,是否真正需要大量的数据。在一次活动中,一位统计分析的专家在谈到大数据时说:“本来统计分析学是如何通过少量的取样,去了解事务整体的学问。例如,电视的收视率调查就是一个典型的事例,这类调查就是通过极少的样本,来掌握日本全国的收视状况。如果目的明确,并不需要大量的数据。”由于上述言论出自目前作为“数据科学家”备受瞩目的统计分析方面的专家之口,让笔者不禁大吃一惊。这就是说,只要有一定量的数据,无关数据数量,分析的结果并不会有很大的差别。如果果真如此,不禁让人产生怀疑,即到底大数据是为何而存在。听到上述观点,使人感到大数据所面临的矛盾的应当不仅仅是笔者一人。本以为通过大数据分析,满怀期待能够发现以往没有认识到的新的东西,但有时其结果不过是已有所知的事实而已。如果企业为系统开发投入数十亿日元,得出的不过是证明资深职员“经验”的结论,这也未免让人难以接受。正因为如此,就有必要重新考虑为何需要大数据这一问题。例如,企业需要明确通过将有交易往来的公司和社交媒体等本企业外的大量数据进行组合,是为达到何种目的等,即有必要事先制定大数据的目标。数据的“质量”有无问题第二点是由谁来维护大量的数据,即数据的“质量”如何能够得到保障。笔者曾听说这样一件事。某企业的总经理每个月都会收到有交易往来的IT供应商的宣传(PR)杂志,但收件人的头衔不是“总经理”,而是他曾经兼任公司CIO时的头衔“常务董事”。虽然将头衔搞错,但还是都能收到,因此并没有太在意。但当这家IT供应商的总经理到公司进行礼节性拜访时,就提出了希望改一下头衔的想法。而这家IT供应商的新的卖点是大数据,公司的总经理当场表示回去马上会进行修改。起初以为这点事情对于运营大数据业务的IT供应商而言不过是举手之劳,一定会进行纠正。但是,等到下一个月他收到的的PR杂志时,发现收件人的头衔仍然是“常务董事”。这位总经理通过两本PR杂志感到仿佛看到了大数据的现状,因此他非常失望地说:“归根到底IT供应商并没有维护顾客数据库”。上述例子虽然是顾客数据,而不仅仅是顾客数据,说到大数据必然还需要处理很多各种各样的企业外部的数据。但是,这些数据是否是最新数据,其数据的精确度又如何等数据的“质量”就会非常重要。分析出处不明的数据将毫无意义。如果顾客数据不能随时进行维护,也就不会产生任何价值。不应当将当初以为是宝山的大数据,变成一座堆满垃圾的山。是否忽视了现场职工的工作干劲第三点就是企业不仅应当努力培养数据科学家,同时也需要提升现场职员的分析数据的能力。如果在店头等现场直接接触顾客的员工变得“擅长数字”,他们也能够常常通过数据考虑事情并进行判断,这样的企业必定会强大起来。例如,有一家超市的店头销售员就从与顾客的对话中得到启发,通过购进新的商品或是改变商品陈列的方法,提升了销售额。又比如,在特快列车上负责销售的员工,发现似乎“可吸烟座位的咖啡畅销”,当他整理出不同列车的销售业绩,结果发现确实是如此。于是决定在吸烟车厢集中推销咖啡,结果咖啡的销售量明显增加。当然,通过现场增加的销售额,也许和利用大数据获得的销售数字相比很小,而且其分析能力也远远不及数据科学家。但是即便如此,如果通过将这种方式横向拓展到其他现场,积累的数字也会非常可观。同时,最为重要的是,这种方式能够提升现场员工的工作动力。实际上,某零售企业自从将其销售分析统一由总公司实施后,店头员工就失去干劲,甚至出现退职的员工。这说明只依靠上级的指令,则会降低现场的职业道德。因此,这家公司决定给予现场员工自由分析判断的职能,由此店头又重新恢复了活力。虽然大数据非常重要,但是如果将权限集中在某些部门,则会导致现场丧失工作干劲。以上三点实际上不仅仅对大数据而言非常重要,而且同时适用于整个信息系统。大数据是IT业界期待已久的关键词,为使其成长壮大,就需要脚踏实地的努力,而不应被其华丽的部分所束缚摆弄。正因为如此,笔者认为提出的上述三点需要重新铭记心中。(日)ITpro大山繁树楼主是看了这文觉得有意义特地转给大家的。的确,统计学也许刚刚建立这么学科的目的就是从小样本去推断总体,当然,我始终忘不了老师的那句话(样本越多,你的推断相对越准确)。不知坛子里的同学有没有做过问卷调查,每次的问卷调查总是信心满满的设计,满心热情的投发,近乎绝望的收取和录入数据。所以楼主感觉无论是做论文还是工作上做分析,数据利用的前提条件无疑是数据是真实准确有效的。在这个大数据流行的当下,我仿佛看到了统计学的一个新的希望。我不敢说大量的数据能提高多大的统计意义,但相互验证也许是大数据给我们的最好途径。不知道大家对此是如何看法,欢迎一起讨论。

  • 想学统计学需要掌握哪些知识?(转)

    这是一个很好的问题,对于新手、特别是非统计科班出身的人来说,心里总是有这样的顾虑,掌握的统计学基础只是不够,然而又应该从哪里入手呢?以下是中国统计网整理自知乎的一些答案,希望对大家会有所帮助。@肖玄:我认为首先要明确的是学统计干什么,如果有明确的作用,比如时间序列,市场调研这些,那么推荐书籍各不一样,统计终究只是一个工具,在实际运用中的偏重和变化还是蛮大的,如果不是有特别的目的,只是想要了解统计的话建议从理论基础看起,再看一些实际操作的书会比较好。基础书籍,我看前面各位大师都推荐的差不多了,就不详细写了,就简单写一下我理解的基础书籍涉及的方面第一个是《统计学基础》,建议这个先看,至少能大致了解统计是什么东西。只看过人大版的,私底下觉得逻辑还是有点问题,大神勿喷,也许是我脑子笨。不过作为入门还是不错的。接下来就是《概率论与数理统计》,这是所有数学学科中最霸气的一门,没有之一。然后是《多元统计》《时间序列》,基本上到这里统计大致的框架已经有了。其他的《非参数统计》、《贝叶斯统计》等等看自己需要。另外这里推荐一本非主流的书,高级调查分析师考试中的《预测与决策》教材,这是我最喜欢的一本统计相关的教材,没有之一。但是貌似现在要买到比较难,如果有哪位知友知道哪里有买,那么求共享,我也只有一个打印的版本。操作书籍,好吧,我知道这4个字比较糙,大家将就看。如果要涉及开源软件,建议R,知乎上面关于学习R的数据推荐太多,不重复了,自己搜一下就行了。就说一下SPSS,这里推荐第一个是中文版的SPSS操作手册,这个绝对是宝典,另外可以参考一本实际案例的书,哪本都行,关键是要跟着案例自己去操作分析。通俗书籍,最后推荐一点统计的通俗书籍,理论毕竟看起来太烦,通俗的读物可以帮助更多的理解,像《统计陷阱》,《深入浅出XXX》,这些都适合入门的看一下。另外如果有明确的目的,最好看一下统计学之前分析的方法,比如如果你做市场分析方面的话,可以去了解下消费者行为学,市场营销理论,这样才能了解统计在学科上的意义。@邹日佳:还是强烈推荐先把理论搞清楚,见过直接上软件搞统计的,解释数据一塌糊涂,连回归做的是因变量的期望都不知道。前期需要:微积分统计学知识较深,用的地方非常广,还是希望说一下您想做什么用。是在工程上用?还是在临床试验上用?还是基因组排序上用?处理金融资产实现无风险套利时用?亦或是在法律统计上用?无论怎样,数理方面一定要过关,不论是t统计量、卡方统计量、F统计量,一定要知道它的式子是个什么形式,这样才好说明意义,也才好进行筛选与对比,可以找《概率论与数理统计》这本书看一看能做统计的软件太多了,SAS、R、S-PLUS、SPSS、Eviews、Matlab,都可以以后学的统计知识得看你想拿它做什么用,软件也要根据你不同的用处来选择,等你修改好问题后,我会再来具体说明的。@王洪城:忽视对象和目标而谈方法,的确是耍流氓。统计学太宽、太杂,而且正处在蓬勃发展之中,任何一个细小的领域都能耗尽人的一生。况且统计学这东西,用的很广,越来越多的文科生都想用用统计来支持自己的结论。文科生、工科生、经管类学生、数学系学生有不同的目标,自然方法不一样。不过,如果只是想要粗略地了解统计学的大概的话,还是有一些很好读的书的。比如《女士品茶》、Rao的《统计与真理》,这些可以了解(只是了解)统计的思想、哲学和历史。国内吴喜之《从数据到结论》、Freedman的《统计学》都写的很不错,有一些很好的案例,对统计的一些概念也会有一些理解。感觉统计就跟医学差不多,对付小感冒这种病,只要自己买药,按照说明书服用,就ok了;如果只是像做个回归,看看相关系数这种,现在已经有很成熟的方法和软件,像exel和spss。遇到复杂一点的问题还是请教专业人士吧,即使你能够用一些方法得出结果,对结果的解释也是很大的一个问题,大病还是得到医院治。当然我并不是说统计很难,无法自学成功。统计并不难,只是无法速成,只是统计自身的特殊情况(对于特定情况下的模型选择、结果解释,即使在专业人士之间也会有争议)使得统计有很大的灵活性,只有对统计了解地够多,才能够应付多变的情况,得到最符合预期且合理的结果。一句话,想得多,读得少。想了解直接就去看,缺啥补啥呗。@郑来轶:给你推荐几本统计学的经典图书,《深入浅出统计学》、《漫画统计学》、《女士品茶》、《爱上统计学》、《统计陷阱》,都很不错的。@李超群:统计学的学习,需要先把这门知识,化为日常生活中的一点一滴,不要把统计学只落在纸面或试卷上的冰冷文字,它是有命的,在生活中习以为常的事情,背后都有各种有趣的统计知识。虽然不清楚题主希望从事的方向(应用统计/理论统计……)不过对于入门来讲,需要事前掌握的知识不需要多么的特殊,有一定的数理知识基础,学习了高等数学,就基本上相当于解决了前置技能,所需要的不过是找到合适的教材与合适的老师,加上认真学习,并尝试在生活中应用就可以。推荐阅读的几本书:和楼上的几位会有重合的部分。《女士品茶——20世纪统计学怎样变革了科学》,很有趣的统计学发展史;《统计陷阱》数字是怎样欺骗了你《深入浅出统计学》《深入浅出数据分析》深入浅出系列出品,必属精品《统计与真理----怎样运用偶然性》《统计学的世界》《爱上统计学》有些概念性的知识,可以强化掌握《漫画统计学》系列《社会心理学》戴维·迈尔斯第8版--这本书作为心理学的教材,超经典。毕业前曾认真读了一遍,可以看到心理学与统计学的结合以上书籍为课外阅读,至于正式学习的教材么~本科时基本上全使用的是人大版的教材,黄皮封面的那些,说实话,即枯燥又无味,印象最深的是人大版的《抽样技术》,有很多印刷错误,以致上课时亲爱的teacher会先花十分钟,在黑板中把本章节中错漏的地方通知大家修改过来~(PS:teacher是本校数理统计方向数一数二的大牛)后来偶然间接触了一些国外的教材,惊为天人。学习教材参见肖玄与李少洋,尚可的推荐即可。来自:http://www.zhihu.com/question/19624858

  • 统计学那点事——T检验

    在数据分析的工作中,经常用到的数据统计基本都是:均值、个数、百分比、求和等基本指标,接着从多个维度进行分析,最后刷刷地把统计的数据做成几十页PPT的分析报告,完毕后,会很自豪地说:数据分析其实很简单,那些基本统计的方法都熟练地掌握了。或许,在外人看来,你已经是一个比较专业的数据分析师了,但若是有人问你:“请教一下T检验如何做呢?”这个时候的你肯定在脑海中出现这样的情景“T检验是神马?”、“浮云”,弄得这个所谓专业的数据分析师一头雾水,因为很多数据分析师不是专业统计出身的,都是工作之后半路出家的,对很多高级统计分析都很少接触过,因为现实的工作都是均值、个数、百分比、求和居多,其他那些高级统计分析基本没有用过,或许也用不到。但是,可以肯定地对大家说:学会一点高级统计分析,对你的专业技能会有更大的提升。因为数据分析中应该把更多的高级统计和现实工作结合起来,能够发挥更大的作用。因为中国式教育的关系,大学时代的统计学教材中的很多例子都是和社会工作的现实脱轨的,也很多大学老师因为从毕业就一直留在大学里面任教,脱离了很多社会中的工作实践,在书本里面的很多东西都是很概念的,看起来很有用,但放在工作中却怎么也用不上,所以统计学的应用一直都是留在书本的记忆中。对于T检验,这个其实在现实数据分析工作中有很多用处:例如判断促销活动的效果是否显著、网站改版的效果是否显著、新产品对消费者的影响是否显著、新药物对病人的病情的治疗效果是否显著等。从一大串的应用中可以知道了T检验的应用方向:判断效果是否显著。大家可以细微地观察电视的广告中,经常会看到减肥的广告,在广告之前,总是出现一个很肥胖的女孩子,因为肥胖,身边缺少很多朋友,去面试好的工作又没希望,去交男朋友又没人看上,广告中会列出一大堆的肥胖的害处。在中间的时候,就会出现一个减肥的产品,该女孩服用了该产品后,过了几个月,女孩的Look完全变了另外一个形状:人苗条了,也漂亮了,更加有自信了,很多男的围绕这个女孩子转。最后会出现一个服用该产品的前后效果对比(如图1),该女孩会在广告中说因为我服用了该公司的这个产品后,觉得效果十分显著,请看我以前的身材和现在的身材对比.在这些广告中,我们在这里探讨的并不是广告的本身,而是该广告中所采用的效果评估方法是否就确定是因为该女孩子服用了该产品而出现了显著的效果么?是不是因为该女孩经常控制饮食,并且进行大量运动的效果呢?这些都无法去追述。但是在这里,可以用数据分析中T检验来评估一下该产品的效果是否显著。首先随机跟踪一下16个用户的使用该产品与肥胖相关的指标的前后变化,初步模拟的数据如下。通过在SPSS里面进行样本配对T检验,其操作如下:最后可以得到T检验的结果会得到以下三个表,那么应该如何去分析呢?表1表2表3对于这3个表,所需要关注的信息其实不是很多,重点只需关注表3的关键数据。表3中的均值那一列是配对样本的平均差值,服用该产品前后的胆固醇平均相差了14.0625,而体重则平均相差了8.0625;重点关注最后一列的数据Sig.(双侧)那列,主要是为双尾检验概率p值,在置信水平为95%时,显著性水平为0.05,第一组的双尾概率p值为0.249,大于0.05,故零假设成立,可以认为服用该产品前后的胆固醇没有显著差异,即说明了服用该产品对降低胆固醇没有效果;第二组的双尾概率p值为0,小于0.05,拒绝零假设,可以认为服用该产品前后的平均体重有显著差异,即服用该产品对降低体重有显著效果。从该数据分析中,可以得到了一个很关键的结论:服用该产品对降低体重有显著的效果。说明广告里面的产品应该不是骗人的。这下算是明白了T检验的作用了吧。在进行促销活动评估中,对于评估促销活动是否对用户有显著的效果,建议可以从T检验进行分析一下(当然,要做T检验,首先要让数据服从正态分布,如果不是的话,可以尝试使用数据标准化或相关处理……),而不仅仅是从促销前后的数据上升了多少,提高了多少个百分比,新增了多少个客户,或者把数据变换一下做得更好看就上交。而应该更关注不同促销活动对用户影响程度是否显著进行总结,以便把那些促销显著效果的活动进行归档,对日后的工作提升有更好的帮助。转自:http://blog.sina.com.cn/s/blog_72e6be57010146qb.html

  • 统计学学习心得和书籍推荐

    1.Datatoinformationtofactstoknowledgetoapplication一、统计学基础部分1、《统计学》DavidFreedman等著,魏宗舒,施锡铨等译中国统计出版社据说是统计思想讲得最好的一本书,读了部分章节,受益很多。整本书几乎没有公式,但是讲到了统计思想的精髓。2、《Mindonstatistics(英文版)》机械工业出版社只需要高中的数学水平,统计的扫盲书。有一句话影响很深:Mathematicsastostatisticsissomethinglikehammer,nails,woodastoahouse,it'sjustthematerialandtoolsbutnotthehouseitself。3、《MathematicalStatisticsandDataAnalysis(英文版.第二版)》机械工业出版社看了就发现和国内的数理统计树有明显的不同。这本书理念很好,讲了很多新的东西,把很热门的Bootstrap方法和传统统计在一起讲了。Amazon上有书评。4、《BusinessStatisticsadecisionmakingapproach(影印版)》中国统计出版社在实务中很实用的东西,虽然往往为数理统计的老师所不屑5、《UnderstandingStatisticsinthebehavioralscience(影印版)》中国统计出版社和上面那本是一个系列的。老外的书都挺有意思的6、《探索性数据分析》中国统计出版社和第一本是一个系列的。大家好好看看陈希儒老先生做的序,可以说是对中国数理统计的一种反思。  二、回归部分1、《应用线性回归》中国统计出版社还是著名的蓝皮书系列,有一定的深度,道理讲得挺透的。看看里面对于偏回归系数的说明,绝对是大开眼界啊!非常精彩的书2、《RegressionAnalysisbyexample(3rdEd影印版)》这是偶第一本从头到底读完的原版统计书,太好看了。那张虚拟变量写得比小说都吸引人。没什么推导,甚至说“假定你有统计软件可以算出结果”,主要就是将分析,怎么看图,怎么看结果。看完才觉得回归真得很好玩3、《Logistics回归模型——方法与应用》王济川郭志刚高等教育出版社不多的国内的经典统计教材。两位都是社会学出身,不重推导重应用。每章都有详细的SAS和SPSS程序和输出的分析。两位估计洋墨水喝得比较多,中文写的书,但是明显老外写书的风格  三、多元1、《应用多元分析(第二版)》王学民上海财经大学出版社现在好像就是用的这本书,但是请注意,这本书的亮点不是推导,而是后面和SAS结合的部分,以及其中的一些想法(比如P99n对假设检验的影响,绝对是统计的感觉,不是推推公式就能感觉到的)。这是一本国内很好的多元统计教材。2、《AnalyzingMultivariateData(英文版)》Lattin等著机械工业出版社这本书有很多直观的感觉和解释,非常有意思。对数学要求不高,证明也不够好,但的确是“统计书”,不是数学书。3、《AppliedMultivariateStatisticalAnalysis(5thEd影印版)》Johnson&Wichem著中国统计出版社个人认为是国内能买到的最好的多元统计书了。Amazon上有人评论,评价很高的。不过据王学民老师说,这本书的证明还是有不太清楚,老外实务可以,证明实在不咋的,呵呵  四、时间序列1、《商务和经济预测中的时间序列模型》弗朗西斯著Amazon上五星推荐的书,讲了很多很新的东西也非常实用。我看完才知道,原来时间序列不知有AR(1)MA(1)啊,哈2、《ForecastingandTimeSeriesanappliedapproach(thirdedition)》Bowerman&Connell著本书的主讲Box-Jenkins(ARIMA)方法,附上了SAS和Minitab程序  五、抽样1、《抽样技术》科克伦著张尧庭译绝对是该领域最权威,最经典的书了。王学民老师说:这本书不是那么好懂的,数学系的人,就算看得懂每个公式,未必能懂它的意思(不是数学系的人,还是别看了吧)。2、《Sampling:DesignandAnalysis(影印版)》Lohr著中国统计出版社讲了很多很新的方法,无应答,非抽样误差,再抽样,都有讨论。也很不好懂,当时偶是和《AdvanceMicroeconomicTheory》一起看的,后者被许多人认为是梦魇,但是和前者一比,好懂多了。主要还是理念上的差距。我们的统计思想和数据感觉有待加强啊  六、软件及其他1、《SAS软件与应用统计分析》王吉利张尧庭主编好书啊!!!!2、《SASV8基础教程》汪嘉冈编中国统计出版社主要讲编程,没怎么讲统计。如果想加强SAS编程可以考虑。3、《SPSS11统计分析教程(基础篇)(高级篇)》张文彤北京希望出版社当初第一次看这本书,发现怎么几乎都看不懂,尤其是高级篇,现在终于搞清楚了:)4、《金融市场的统计分析》张尧庭著广西师范大学出版社张老师到底是大家,薄薄的一本书,言简意赅,把主要的金融模型都讲清楚了。看完会发现,分析金融单单数学模型还是纸上谈兵,必须加上统计模型和统计方法才能真正应用。本书用的多元统计(代数知识)比较深。另一篇看到版上有很多人问学统计的话要先看什么书,统计怎么打好基础之类的话题。我现在是概率统计方向的研究生,对于统计也有一个比较粗浅的认识,因此想推荐一些书和方法,希望能够对大家有所帮助。当然其中有说的不对的地方还是希望大家能够指正:)1、统计需要的数学基础大多数人学统计基本上来说有微积分+线性代数+概率论的基础就足够了。如果要去做研究,读PHD,并且做一些理论方面的研究,当然就得学一些较深的数学,例如实变函数、测度论等等。但是对于大部分同学的申请Master来说,有微积分、线性代数、概率论,再去看统计,应该就OK了。有人也许要问这些课要学多深,那就得看你想把统计学的多深了,这些课学得越深,统计就能够学得越深。2、国外学统计以后的出路就工业界来讲,统计在美国最好的应用是生物统计方向,不过一般制药公司都需要PHD,并且据说这个活儿比较适合女生做,以后我可以转载一篇文章过来让大家看看生物统计的大致内容和前景;另外还有一个比较大的方向是金融统计,去银行证券之类的,要看各人能力了;还有做Faculty,其实中国大量需要统计老师,但是就工业界来讲中国至少现在并不需要很多统计人才。保险精算我感觉没有用到很深的统计3、数理统计的一些基础教材这里推荐的几本教材是我所看过并且还觉得挺不错的。有中文有英文的,大家根据自己的水平,选择着看,如果有更好的可以回帖推荐。在我看来大家最多选择两本精读一下就可以了。英文基础好的同学尽量选择英文教材(不是我崇洋媚外,的确是英文教材较好)(1)概率论与数理统计GaiLu^LunYuShuLiTongJi/陈希孺编著北京:科学出版社合肥:中国科学技术大学出版社,2000这本教材应该是中科大的工科所用的教材,教材编得很不错,不愧是陈希孺先生编著的。教材只需要微积分和线性代数基础(数学2,3应该都可以了,数学4我不太熟悉),并且讲得也不深,主要涉及比较简单的参数估计、假设检验和线性回归,适合作为入门级的读物。推荐度:★★★★★(最高五星)需要基础:★★★(最高五星)(2)数理统计学讲义ShuLiTongJiXueJiangYi/陈家鼎...[等]编著北京:高等教育出版社,2006北大数学科学学院所用的教材,涉及统计的面比较广。课是一学期,但是不会全讲完的。因为是数学系的教材,可能就比较深,需要的基础也就要比较好,要全看懂的话大概需要数学2或以上的水平,如果泛泛而看,应该也不算太难。我学得时候就是感觉这本书上的一些例子很是不错。除了参数估计、假设检验、线性回归之外,这本书还讲了实验设计与方差分析、序贯分析、统计决策、Bayes、抽样调查等,总之就是基本上经典统计的各方面均有所涉及,很推荐,即使数学基础不是很好的同学可以大致浏览一下,很有帮助。推荐度:★★★★(最高五星)需要基础:★★★★(最高五星)可选代替书籍:数理统计学教程/陈希孺,倪国熙编著上海:上海科学技术出版社,1988(3)高等数理统计学/陈希孺著出版发行合肥:中国科技大学出版社,1999这个需要的数学基础就更深了。高等统计基本上是数理统计专业的本科高年级或者研究生的专业课程,需要很强的数学基础,数学3或者数学4的基础基本没必要看了,想读比较应用的统计(大多数同学应该是希望能学统计并且投入应用中去)的同学也不要看了。看这本书最好是学过一学期《数理统计》课程的(不是一学期的《概率论与数理统计》)推荐度:★★★(最高五星)需要基础:★★★★★(最高五星)可选代替书籍:高等数理统计=Advancedmathematicalstatistics/茆诗松,王静龙,濮晓龙编著北京:高等教育出版社德国:施普林格出版社,1998(4)Mathematicalstatisticsanddataanalysis=数理统计与数据分析/JohnA.Rice.Beijing:ChinaMachinePress,2003.很不错的一本书,包括几章概率论的内容,只要简单的微积分和线性代数即可,机械工业出版社有影印版。作者内容讲的不深,但是又能让你看到统计的一些思想与精华。而原版教材突出的特点就是善于用例子讲问题,比较容易懂。推荐度:★★★★(最高五星)需要基础:★★★(最高五星);(5)Mathematicalstatistics:basicideasandselectedtopics/PeterJ.Bickel,KjellA.Doksum兰州大学把这本书翻译了:数理统计shulitongji:基本概念及专题/P.J.比克尔,K.A.道克苏著;李泽慧,王嘉澜,林亨等译,兰州大学出版社,2004)翻译还可以,如果能看懂原版还是看原版吧。强烈推荐这本书。Bickel已是统计界的老前辈了,泰山北斗级的人物,好像是lehhman(不知道有没有写错)的学生,这本教材是我目前见到的最好的数理统计教材了(可能孤陋寡闻了),善于用例子讲问题,并且都是实际中应用的例子,书的逻辑结构也很强,书后的习题有些很有意思的(兰州大学ms出了配套习题书,如果不会可以看看他们怎么做的),每一章会有一些引用的文献,如果对书中某一个东西感兴趣的话,可以看看这些Paper,很长见识。这本书需要的数学基础不是很高,当然看书的深入程度就和数学基础很有关系了。推荐度:★★★★★(最高五星)需要基础:★★★★(最高五星)(6)Fundamentalsofbiostatistics/BernardRosner.中译本:生物统计学基础ShengWuTongJiXueJiChu=Fundamentalsofbiostatistics/(美)伯纳德·罗斯纳著;孙尚拱译eng北京:科学出版社,2004生物统计的入门教材。如果以后想做生物统计,或者只是想看看统计的主要内容,可以选择这本书。这本书需要的数学很浅,因为是生物统计,所以例子都是集中在生物统计中的一些实际问题。书附一张光盘,可以自己分析里面的数据。推荐度:★★★★(最高五星)需要基础:★★(最高五星)(7)Mathematicalstatistics/JunShao作者中国人,威斯康星统计系系主任(如果没记错的话)。好像还没有中文版。我们的高等统计课程用的这个教材,基本是和上面(3)一个级别的。适合数学基础比较扎实的同学看,并且需要一定的测度论知识(书第一章讲了,但是不是很多,还是需要看其它书),但是如果读透了会对统计有另一番认识:)推荐度:★★★★(最高五星)需要基础:★★★★★(最高五星)今天先写这么多吧,如果大家有什么问题可以回帖,我再想想还可以写写什么具有共性的问题。有不当之处还是欢迎指正。另:复旦郑明编的数理统计讲义很很不错。

  • 统计学学习感想

    (一位网友的分享)通过半个多学期的学习,我对统计学这门课程有了一定的了解,对学习这门课程也有了一定的感想。首先,我谈谈我对这门课程的理解。一)对统计学新的认识在学习统计学之前,谈起统计我脑袋中就浮现出计数,一大堆枯燥的数字,还有一长串的数学计算式。在我眼中,统计学是一门非常枯燥非常单调的学科,它不像数学那样强调严密的推理和逻辑,而是仅仅需要搜集原始资料,套用数学公式而已,我甚至不是很喜欢这门课程。但是经过半个学期的学习,我对统计学有了全新的认识。统计学是研究总体在一定天脚下的数量特征及其规律性的方法论学科。我开始意识到统计学在学术研究中,在公司决策中,在国家制定方针政策时……在社会生活的各个方面都发挥着重要作用,我开始了解到统计学是一个理论联系实际的学科,非常具有实践性,统计的原始资料全部来源于实际生活。统计学也是一种成熟的学科,它有它独立而完备的理论体系,它是相当科学的,它是以数学作为它的基本工具,但它有比数学更有实际用途,它可以对生活中大量的无序的数据进行分析,找出它们的规律,从而为研究、决策提供基本的依据,它是其他学科的一切理论的基础和来源。二)统计学和经济学的关系统计学并不是一门浅显的学科,人们从事统计工作已经有几千年的历史了,但是统计作为一门学科而存在仅有300多年的历史。统计学这个名称起始于国家管理,起始于社会经济的数量考察。于是统计学就和经济学就有了密不可分的联系。经济学来源于统计学。我们知道经济现象是现实世界的一个重要组成部分,和自然界的现象有很大的不同。自然界的现象基本上都按其本身的机制机理形成和发展的,容易通过实验解剖等方法来被人们掌握。但是人类社会的经济现象就大不一样,它们是由人的活动而形成的,复杂多样,变化多端,没有任何实验的方法可以来准确的研究。因此我们就只有借助于统计学,通过统计分析社会经济的各种数据,我们就可以发现社会的经济问题,为经济学的研究提供了素材。这就是所谓的理论源于实践。同时,统计学也是检验经济学的理论是否符合客观事物的发展规律的重要工具。实践是检验真理的唯一标准。运用各种经济理论所制定的方针政策、计划方案的是否正确,是否符合实际,能否达到预期的目的,只有依靠实践来检验,然而对实践要取得了解,又只能依靠统计。统计是沟通经济学与实际的一个重要桥梁。没有统计学,就没有经济学今天的发展。正因为经济学和统计学这样密切的关系,我意识到,光学好经济学理论知识是不够的,我必须还要同时学好统计学。不然的话,我的经济学是无法深入研究下去的,这些知识是没有生命力的,它们不能从现实生活中补充新鲜的养分和空气。三)统计学的历史从马克思主义哲学中,我们可以知道学习、研究都不能缺少历史观,只有清楚地了解历史才可能深入地研究。学习统计也是一样,我们必须要清楚统计学的发展历史才能全面深入地学习统计学。在课堂上我学习了一些统计学的历史,下来过后我又自己找资料了解了一下。一下说一下我的理解。统计学的发展分为两个阶段古典统计学和近现代统计学。古典统计学出现于17世纪,一般说,古典统计学有两个来源,按时间顺序,先有德国的国势学派,继有英国的政治算术学派,最后汇合而成为古典统计学。国势学派的代表人物康令,他以叙述国家显著事项和国家政策关系为内容,在大学开设了“国势学”课程。主要继承人阿亨瓦尔继续开设“国势学”,并于1749年首次使用统计学来代替国势学,认为统计学是关于各国基本制度的学问,是一个国家显著事项的整体。但它缺乏数字内容,用文字表述。政治算术学派产生于英国,代表人物是威廉.配弟,政治算数学派是用数字来表述,取用数字、重量和尺度来计量,并配以朴素的图表,这与现代统计学的方法和内容相同。但是他却没有用统计学这个名称。古典统计学是以研究国家显著事项,包括人口、领土、财政、军事、政治、法律等出发而产生的,即以社会经济现象为研究对象,并且通过数量来表示。因而古典统计学实际就是社会统计学或社会经济统计学。凯特莱把概率论引入统计学之后的统计学,称之为近现代统计学。近现代统计学是古典统计学的继承和发展,是古典统计学的延伸。他根据概率论为基础的大数定律,提出了大量观察法,进行统计资料的收集和研究,可以消灭误差和控制误差,从数量上揭明其运动规律,加以分析和运用。凯特莱开创了统计理论和应用的新领域,但当时并没有给以确切的名称,直到1867年德国数学家威特斯坦才把它定名为数理统计学。四)统计学的一些基本理论通过这门课的学习,我了解了统计学的基本论理。刚开始接触一门学科,都必须了解大量的术语,统计学也是一样。学习这门课的开始两三周我都感到比较痛苦,因为我们学习的都是一些统计学的基本的术语,对于这些枯燥的术语,我甚至感到一些头疼,下来都不想去看书。但是,我也知道这是学好一门课所最基本的要求,所以我还是尽量记住了这些。统计主要分为了理论统计和应用统计,其中理论统计又分为了描述统计和推断统计。顾名思义,理论统计是研究统计的一般理论和方法的,而应用统计运用在某一特定领域的统计问题,它可以和各种学科结合起来,如人口统计学、心理统计学、教育统计学、社会统计学、卫生统计学、地质统计学等等,应用统计学有更广泛的用途,但是应用统计学的发展又和理论统计学的发展有着密切的关系。统计学的分析法有很多,如大量观察法、分组法、综合分析法、统计模型法、归纳推断法等等。统计的研究对象是同类事物所构成的总体的数量特征,因为只有是同类事物才有相同的数量特征,才有一定的规律。其中这些统计需要研究的全部事物的总体就是统计总体。它具有客观性、大量性、同质性、变异性、相对性等特征。而由于它有大量性,所以在研究的时候经常不能把所有的总体单位都进行调查研究,所以需要抽取一部分出来研究,然后通过样本的特征去推断总体的数量特征,这部分总体单位所构成的整体就是样本,它具有随机性的特点。这个过程体现了一种科学的精神,如何抽取样本,如何控制样本的代表性误差,如何从样本推断总体,每一个环节都需要运用科学的方法,谨慎地进行。统计数据是总体或总体单位某一特征的具体表现,是统计工作的成果。它分为定性数据和定量数据,原始数据和综合数据,截面数据和时序数据。说明统计特征的概念与具体数字称为指标,他由指标名称和指标数值构成。数据的计量尺度分为四个层次,定类尺度、定序尺度、定距尺度、定比尺度。对于统计数据的获得要经过2个步骤:统计数据的搜集、统计数据的整理。前面提到了需要抽取一部分总本单位来作为样本,抽样方法有重复抽样和不重复抽样,抽样组织方式分为简单随机抽样、分层抽样、等距抽样和整群抽样。它们各有各的科学性,各有各的适用条件,应该根据具体的情况来反映。而选用了不同的抽样方法和组织方式都回对应不同的抽样误差的计算、抽样估计的计算、总体参数的检验、方差分析和回归分析。最后,我想谈谈我学习这门课程的一些心得。在学习统计学之前,我一直把统计学看成另外一种数学,但是学习之后我才发现它和数学有很大的不同。统计学更加地贴近实际,我们在学习中必须紧密联系到它的现实意义,比如做完了数据分析,我们不能像数学那样就完了,我们必须要理解分析出来的数据所具有的实际的经济意义,这样我们的分析才有意义。当然我也看到了统计学和数学的紧密联系,统计中会用大量的数学工具,所以必须要复习一下相关的数学知识,这样才能在学习中灵活运用。学习统计学,我们不能零散的学习,而是需要从系统的,比较的角度来学习。比如当我们学到抽样的平均误差、抽样的极限误差、置信区间的计算时,我们就需要比较不同的抽样方法,不同的抽样组织方式的计算,它们之间的异同点。同样在学习假设检验时也一样,要对单个总体、两个总体和多总体的情况进行比较,对均值、方差、成数的各种前提条件进行比较。要多总结,这样才容易理解记忆,把多个公式化成很少的公式,减轻记忆的负担。另外在做题的时候一定要弄清楚题目中所给出的前提条件,对应到不同的计算方法。

  • 统计学学习10年的经验之谈——致统计学初学者

    本人自2001年开始接触统计学,至今已有10年,经历了从初学的拒绝、迷惑、不解到现在的喜欢、迷上统计学,转变很大。其中当然有导师引导的功劳,但也有自身学习的一些经验,特地分享给初学者,希望各位打消对统计学的偏见。下面的个人学习的一些经验之谈:一定要把统计学跟数学划分界限。不少初学者抱怨统计难学,统计学是有一定难度,但绝不是难以掌握的。统计学不是数学,并不侧重计算,而是侧重理解,它与数学是很不同的。学习统计学一定要抱着理解的思维,不要死记硬背。一开始学习可以试着理解各种方法的使用条件,使用范围等。然后在实际中慢慢摸索,关键的是一定要结合统计软件,我个人最推崇SAS,可以灵活运用,十分得心应手。当然,感觉SAS有难度的,可以用SPSS。我的硕士导师曾说“没有教不会的学生,只有不会教的老师”。我觉得很有道理。现在多数老师根本没有把心思放在教学上,有的老师甚至自己对统计都不理解,只能照本宣科,其结果可想而知。因此,不要把希望都放在“让老师教会你”这样的不现实想法上。即便是你的导师,也不会每天都有时间给你讲解,甚至说句实在话,有的导师自己根本就不理解,怎么教会学生呢?所以,自学是很重要的。本人当年读研究生时,几乎每天都看统计学教材,当时教材很少,尤其多因素分析的书,一共没有几本。所以很多都是通过在SAS软件上练习,比如加上这个选项或去掉这个选项,结果有什么变化,等等。以加深对统计学方法的理解,这样才能转化为自己的理解。3,选一个自己喜欢的统计软件,不要听别人的。不要认为SAS难学,别人觉得难学,不代表你觉得难,最重要的是选一个自己适合的。个人最推崇SAS,因为你在编程过程中,可以理解方法是如何实现的。而且,SAS毕竟更加灵活,没有菜单的限制,你可以通过自己编程几乎可以实现任意方法。实际上,SAS并不像有的人说的那么难,SAS的编程有固定的格式,并不是很复杂,多数命令也就是掌握常用的几个选项就足够了。,选择几本好的教材。面对当前如此多的良莠不齐的教材,很多人不知道该看什么书。有一些经验之谈,首先不要迷信主编,不要一看是谁谁谁编的就买。本人参加过一些教材的编写,有的甚至是院士主编,但他们是不动笔的,全部内容都是学生写的。所以不要迷信主编的名气,有时候一些你没听过的主编,他们反而更用心去写。所以,一定要看内容,大致一翻,就会明白这本书是随便copy的还是用心写的。其次,尽量不要选择大而全的书,没有任何用处。即使你在书中能查到所有的统计方法,那又有什么用呢?你可能一种方法都掌握不了,因为每种方法可能都是泛泛而谈,没有任何自己的主见。第三,不要买什么“教育部教材”、“某某用教材”之类的,很多这样的书都是应付而已,多数人都不会用心去写,最多只会让自己的学生去写。难道你的水平比跟你一样的研究生水平低?第四,如果到了一定程度,建议看社会学统计学教材,他们的方法比较前沿,而且有很多统计学大家,写的语言风格也很流畅,不像医学统计学这么难看。简单介绍几本个人认为有特色能帮助你理解的统计学教材(仅为个人意见):陆守曾的《医学统计学》(含有不少统计方法的思想)、陈锋的《医用多元统计分析方法》(学多因素分析必备书)、孙尚拱的《医用多因素统计分析方法》(介于统计与数学之间,推荐有点基础的人看会更有收益),冯国双的《医学案例统计分析与SAS应用》(通俗的语言阐释统计思想并辅之以解释详尽的SAS程序)、张文彤的《SPSS11统计分析教程》(通俗的语言以及SPSS介绍)、余松林的《重复测量资料分析方法与SAS程序》(学习重复测量资料一定要看)、方积乾的《现代医学统计学》(尽管10年前出版,迄今仍有很大的借鉴)。推荐的社会学教材就是“格致方法—定量研究系列”2011年新出版,值得学习以及谢宇的《回归分析》(目前阅读过的最好的介绍回归分析的书)、当然其它还有不少,这些是本人首先推荐的,本人每隔一段时间就会去王府井书店看一下新出的统计书,凡是觉得好的,不论价格,一定买下来,因此对统计学书还是有一定了解。希望对各位有一定帮助,统计学是应用科学,可以说,你生活中的任意点滴都可以跟统计学结合起来,如果你能把所学用到实际,那统计学就到达了一个层次了。初学统计,正如武侠小说中所说,需要一招一式的学习。而到了一定层次之后,就可以融会贯通,以“无招”胜“有招”,不一定非要拘泥于某一方法,而应灵活多变,随机应变。各种方法都在胸中,信手拈来,以最简单的方法得出最合理的结论。不要一味追求新方法,统计方法无新旧之分,只有合适与否。这一点是很多人都容易陷入的地方。(本文为网友的精彩分享,摘自经济学家)

AB
CD
ABCDEFGHIJKLMNOPQISTUVWXYZ