统计学与Data Mining的发展趋势
20世纪60年代:稳健统计盛行时代
开创性地解决了理论分布假定有偏差的资料分析问题
主要成果:
◇异常值诊断
◇高杠杆点诊断
◇对少量污染异常敏感的回归诊断
◇M-estimator等稳健估计量
意义----基于正态假定的理论框架正被打破
失误:在寻找稳健估计量上花费了太多时间
70年代早期:提出探索性资料分析
John Tukey:统计建模应结合资料的真实分布情况
主要观点:
◇数据分析应从数据特征出发研究发现有用信息,而非从理论分布假定出发建构模型
◇重新提出描述统计在资料分析中的重要性
意义:为统计学指明了与资料相结合的发展方向
失误:注重完善理论,未关注信息领域对数据分析工具的需求
EDA的思想与资料挖掘的思想极为相似
70年代后期:两个主要成就
广义线性模型:
◇将看似零碎的统计研究多方面的贡献统一起来
◇概括了基于正态理论以外的线性模型研究
◇主要思想:
EM算法:
◇解决不完整数据估计问题的数值方法
◇即使数据完整,缺失值在最优估计的计算中也有用
80年代及以后:
资料模拟及非参统计的发展
推动因素:计算能力的发展
部分成就:
◇50年代产生的大折刀法的应用
◇有放回Resampling方法即Bootstrap法的提出
◇处理变量非线性关系的核光滑(Kernel Smoothing)法
◇MCMC法
增强了数据挖掘的模式识别能力