楼主: 514050209
4400 1

[行业动态] 【杂谈】高维数据分析与建模 [推广有奖]

  • 0关注
  • 9粉丝

博士生

49%

还不是VIP/贵宾

-

威望
0
论坛币
17915 个
通用积分
5.0395
学术水平
16 点
热心指数
19 点
信用等级
16 点
经验
3743 点
帖子
147
精华
0
在线时间
175 小时
注册时间
2013-2-21
最后登录
2024-2-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

高维数据分析与建模


高维数据分析与建模是目前统计领域研究的热点之一。计算机技术的快速发展为人们存储数据带来了极大的便利,所搜集数据的维数也成几何级数的速度增长,经常远远大于样本量的个数。海量的数据为我们提供了更多的信息,但与此同时,也为如何进行数据分析提炼有效的信息带来了极大的挑战。与高维数据相对应地,传统的统计分析主要考虑协变量的维数远远比样本量小的情形。举个简单例子说明高维数据带来的困难。如果协变量的维数远远低于样本量的话,其样本协方差矩阵一般情况下可以保证是正定的,而在高维情形下,它却一定不是正定的。考虑高维线性模型的参数估计,传统的最小二乘方法就不奏效了。

  

在高维数据分析中,通常我们假设重要的协变量的个数是比较少的。比如人类的基因维数很高,但是导致某类疾病发生的一般只有少数几个或几十个基因。对于高维数据的处理,一个基本的分析思路是提出有效的变量选择方法在不损失信息的前提下将变量的维数降低到合理的程度(降维),然后再利用低维的统计分析方法进行合理的统计推断。近几年来,如何进行特征选取有了较大的发展,为我们进行深层次的分析提供了可能。然而,对于特征选取之后如何做统计推断目前还没有非常清晰的了解。正是基于这个考虑,本篇文章针对高维线性模型中的方差估计这个简单却基本、看似古老却重要的问题做了深入浅出的讨论。一个很自然的想法是采取两步估计方法:利用变量选择技术降维,然后针对提取出来的变量利用同一组数据进行回归拟合得到方差估计。然而我们发现看似合理的两步估计方法在实际计算中却具有很大的偏差。

  

在文章中,郭绍俊与合作者首先讨论了高维线性回归分析中这个看似合理的传统两步估计方法不再适用的原因。他们用一个简单的例子阐述了即使很简单的情形下,传统的方差估计也具有很大的偏差,并且从理论上证明了这个偏差在高维数据中是普遍存在的;为了修正这个偏差,他们提出了一个新的估计方法——Refitted Cross-validation来估计方差。他们给出了这个方法背后所隐含的意义以及证明了此方差估计在一定条件下是相合的和渐近正态的。数值模拟分析结果显示这个简单的方法表现是非常好的。


今年5月,国家数学与交叉科学中心(http://www.ncmis.cas.cn/)郭绍俊等关于高维数据分析与建模的论文《Variance Estimation Using Refitted Cross-validation in Ultrahigh Dimensional Regression》被接受,并即将发表在国际知名期刊《Journal of the Royal Statistical Society, Series B》上。这是他2009-2010年度于普林斯顿大学做博士后研究时在范剑青教授指导下合作研究的题目之一。他们针对高维线性模型中的方差估计这个简单却基本的问题做了详尽的探讨,提出了Refitted Cross-validation估计方法。审稿人认为,“解决了一个高维数据分析方面一个十分重要且具有挑战性的问题……”


Variance Estimation Using Refitted Cross-validation in Ultrahigh Dimensional Regression


Variance estimation is a fundamental problem in statistical modeling. In ultrahigh dimensional linear regression where the dimensionality is much larger than sample size, traditional variance estimation techniques are not applicable. Recent advances on variable selection in ultrahigh dimensional linear regression make this problem accessible. One of the major problems in ultrahigh dimensional regression is the high spurious corre-lation between the unobserved realized noise and some of the predictors. As a result, the realized noises are actually predicted when extra irrelevant variables are selected, leading to serious underestimate of the noise level. In this paper, we propose a two-stage refitted procedure via a data splitting technique, called refitted cross-validation (RCV), to attenuate the influence of irrelevant variables with high spurious correlations. Our asymptotic results show that the resulting procedure performs as well as the oracle estimator, which knows in advance themean regression function. The simulation studies lend further support to our theoretical claims. The naive two-stage estimator and the plug-in one stage estimators using LASSO and SCAD are also studied and compared.Their performances can be improved by the proposed RCV method。


因高维所产生的"维数祸根"问题是回归分析方法所面临的主要障碍。是否能解决"维数祸根"问题是关系到回归分析能否继续得到发展、能否应用到一些实际问题的关键,而降维技术是解决"维数祸根"的重要途径之一。正是这一原因使得降维成为近二十年来统计研究的热点和前沿问题。尽管大批统计学家致力于这一问题研究,并获得一系列行之有效的降维技术,但这些方法基本上是针对数据完全观察情形提出的,只有最近Li & Lu (2008,JASA)考虑了协变量缺失降维问题。然而响应变量缺失时,研究更具挑战性,现有的方法不能使用,这是所有致力于这一研究的统计学家所面临的问题。

  

该研究成果提出两阶段熔合-精炼方法。第一阶段通过熔合回归与缺失机制的信息获得一个包含中心子空间的子空间,而第二阶段通过发展一种新的pmf插补方法对第一阶段所获得的子空间进行精炼并获得中心子空间。同时,该研究成果通过建立这一方法的理论基础,说明了所提方法的科学性。最后,切片逆回归方法被用于阐明这一两阶段方法。


论文题目: Fusion--refinement procedure for dimension reduction with missing response at random

论文作者: 丁晓波 王启华

发表刊物: Journal of the American Statistical Association (JASA)



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析与建模 数据分析 correlations Dimensional Statistical 计算机技术 领域 模型 如何 统计

沙发
Nelsh--Deng 发表于 2016-9-2 19:01:18 |只看作者 |坛友微信交流群
虽然不是很懂,但是据了解这是一个数理统计的热点,楼主是老师吗

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 04:09