楼主: 资料狂人
25024 101

[王汉生] 北大光华王汉生(高维数据分析,搜索引擎营销)5月17日在线访谈    关闭 [推广有奖]

71
holybadger 发表于 2013-5-17 10:46:12
jimfang9 发表于 2013-5-16 19:09
王老师,我想问下主成分回归分析中的变量选择问题,选择多少个合适,是不是把能放进去的变量都放进去?
这是一个学界也没有完全高明的问题。肯定不能全放,全放就是去主成分回归的意义了。
但是,放几个呢?有人说:方方差大的几个,有人说放相关性高的几个。哪种方法
更好呢?鬼才知道。没准您能给出一个答案?

72
holybadger 发表于 2013-5-17 10:47:49
jimfang9 发表于 2013-5-16 19:09
王老师,我想问下主成分回归分析中的变量选择问题,选择多少个合适,是不是把能放进去的变量都放进去?
这也是一个好问题。首先,这是一个在学术界也有争议的问题。没有唯一的答案。但是,肯定不能全放进去。全放进去就失去了降维的意义。

73
holybadger 发表于 2013-5-17 10:53:09
megan78 发表于 2013-5-16 19:31
王教授您好,现在做横向课题时经常会发生数据处理结果与预期大相径庭,我个人觉得数据收集的质量特别重要, ...
您说的太对了,garbage in garbage out,数据质量太差,神仙也救不了。
如果数据质量好,恨不得算个均值就解决了很多问题。

74
holybadger 发表于 2013-5-17 10:54:36
megan78 发表于 2013-5-16 19:31
王教授您好,现在做横向课题时经常会发生数据处理结果与预期大相径庭,我个人觉得数据收集的质量特别重要, ...
您说的太对了,garbage in garbage out,数据质量太差,神仙也救不了。
如果数据质量好,恨不得算个均值就解决了很多问题。

75
holybadger 发表于 2013-5-17 10:55:05
jimfang9 发表于 2013-5-16 19:09
王老师,我想问下主成分回归分析中的变量选择问题,选择多少个合适,是不是把能放进去的变量都放进去?
这也是一个好问题。首先,这是一个在学术界也有争议的问题。没有唯一的答案。但是,肯定不能全放进去。全放进去就失去了降维的意义。

76
holybadger 发表于 2013-5-17 10:58:31
楚韵荆风 发表于 2013-5-16 19:33
强烈的支持这种活动。我也想请教一下王教授:
曾经有幸听过您在我们学校做的报告。
最近拜读了您写的几篇 ...
(1)据我个人有限的知识,大多数文章认为超高维指的是变量个数呈指数阶增长,而非多项式阶,即p=O(exp(n^c)),这里c>0,也就是通常的NP问题,而在理论的证明中却限制c满足:0<c<1, 然而,有文献称log(p)/n 趋于0(即0<c<1的情形)只属于高维情形,而非超高维,在理论上如何真正做到c>1或者c>>1的情形?

c是否大于1,根本不重要。这也就是一个理论上的说法,说:您看啊,我可以让变量个数很高很高哦。在真实的数据中,鬼才知道c=??. 所以,千万别钻牛角尖,dont' take it too serious.

(2)对于p>>n,通常是对变量先进行筛选(screening) 然后在进行估计,现在是否能够办到对于超高维数据同时进行筛选和估计?

理论上总是可以的,值得去努力一把。但是,和先Screening再Selection相比,改进的意义多大?

(3) 就目前您所了解的研究现状而言,您能否介绍一下处理超高维数据已经出现了哪些方法(除了SIS, Forward regression)

这方面除了很多新的工作。可以看看:jianqing fan and runze li 的主页,很多工作。

(4) 有文章提到,通常在模拟中表现得非常好的方法却在预测上并没有表现出优势,请问这主要是哪些原因造成的?这是否可以说明模型的sparsity assumption在实际数据中并不能很好的被满足。

because: every model is wrong:-)

77
holybadger 发表于 2013-5-17 10:59:34
danjourney 发表于 2013-5-16 19:58
王教授,你好!我想问问就是如何处理变量比样本多的时候的数据情况,比方说经济社会方面的评价分析一般都会 ...
这可能得结合具体情形。我的建议:根据定性分析,把指标分类。在对每一类指标汇总或者降维,然后做分析。

78
holybadger 发表于 2013-5-17 11:00:59
linzhongta 发表于 2013-5-16 21:42
老师 您好 ! 现在都在 讲大数据时代,作为一个 学习经济学的学生, 您觉得未来的用什么软件 是未来 在大数 ...
我认为:大数据分析是专业大数据科学家干的事情,任何单一软件都不擅长。但是,经济学背景的同学,可以从更加宏观的角度思考:大数据对经济带来的冲击?对产业的影响?对人们生活的改变?如果一定要建议一个软件,我会认为:SAS+R

79
holybadger 发表于 2013-5-17 11:03:19
-7up℃. 发表于 2013-5-17 09:39
王老师,您好!现在火热的大数据浪潮一波接着一波,同时也对统计工作提出了更高的要求。一方面我们利用计算 ...
(1)大数据的收集依赖于企业,我等似乎无能为力;我们能做的只能是:给定这些大数据的前提下,如何发现最大价值的信息。
(2)传统的统计方法会受到挑战:第一、如何采样?第二、如何计算(计算复杂度很好);第三、还需要p-value吗?样本量那么大,估计不需要inference了,也许:-)

80
holybadger 发表于 2013-5-17 11:05:40
yzhang005 发表于 2013-5-17 09:30
王老师:
      您好!
      请教您,做高频数据分析有哪些统计软件比较适合?
呵呵,非常抱歉,王老师对高频数据一窍不通啊:-)

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 08:26