楼主: 资料狂人
22160 101

[王汉生] 北大光华王汉生(高维数据分析,搜索引擎营销)5月17日在线访谈    关闭 [推广有奖]

51
南冰 发表于 2013-5-17 09:52:24 |只看作者 |坛友微信交流群
牛人,鉴定完
一直怀有一个梦想,希望在不久的将来能读个博士,做做学术搞搞研究,饱尝学术的艰辛

使用道具

52
holybadger 发表于 2013-5-17 10:12:11 |只看作者 |坛友微信交流群
资料狂人 发表于 2013-5-16 08:38
坛友airways1:
王教授您好,能不能解释一下到底什么是dimension curse?对于线性回归来说,要注意这个问题 ...
您好。Curse of Dimensionality指的是数据的维度太高了。传统意义上,如果我们做一个回归模型,样本量可能有200个,解释性变量有10个,那么很好计算。但是,现在的情形是,样本量还是200个,解释性变量可以有10万个,那么OLS就不再存在了。在这种情况下,如何做最小二乘估计,或者泛泛地,如何做回归模型,都是非常有挑战性的问题。似乎是一个诅咒(Curse), 紧紧地限制了传统的统计方法的应用范畴。这就是Curse of Dimensionality

使用道具

53
holybadger 发表于 2013-5-17 10:15:45 |只看作者 |坛友微信交流群
资料狂人 发表于 2013-5-16 08:38
坛友大师坑:
王老师,您好,读过您写的论文《超级市场零售商品的购物篮分析》,您用高维0-1变量聚类方法对 ...
您好,谢谢您对该文章的兴趣。该方法在模型层面需要的输入是一个高维度的0-1变量。其中每一个变量标识某客户是否购买了该产品。那么,任何应用场景,如果可以被规范成为这样的数据结构,那就可以应用该文中的方法。对您所说的农产品问题,我不是很熟悉。如果您的业务可以被规范成:某某某购买了什么产品,那么就可以应用。

使用道具

54
cloversj 发表于 2013-5-17 10:19:29 |只看作者 |坛友微信交流群
看上去很难的问题,往往都有线索可寻的。抽丝剥茧就会慢慢了解答案所在,不要一开始就畏惧困难。

使用道具

55
holybadger 发表于 2013-5-17 10:21:24 |只看作者 |坛友微信交流群
wanggc023 发表于 2013-5-16 08:55
王老师,您好!
现在big data 在社会上引起了广泛的关注,包括统计学和机器学习,计算机等领域的很多专家。 ...
这是一个很好的问题。

(1)首先,我认为“Big Data”是一个被过度爆炒的商业概念,就像是房地产泡沫。所有的企业、科研单位,都在从对自己有利的角度解读什么是Big Data。我认为数据分析,就是数据分析,有不同的情景,不同的问题。That's it。跟数据是否Big or Small,没多大关系。

(2)但是,现在的数据确实和几十年前的不一样的,对传统的统计方法有挑战。主要表现在:维度高了,结构复杂了(网络数据),非结构化了(文本,图形,声音),等等。这些对传统的统计分析是有挑战的。

(3)我认为,现在社会需要的数据分析者需要具备三种能力:第一、大规模数据采集整理的能力(爬虫、SQL,API),第二、数据分析能力(数学、统计),第三、商业理解的能力(营销、管理、经济学)。这三个能力被普通大学割裂在三个不同的学院中,无法发挥集体优势。而统计学专业对这方面的研究是落后的,原因是:我们不具备大规模数据采集和整理的能力。我们输在起跑线上。因此,跨学科的合作,非常必要。我本人的研究团队中,就一定要有计算机专家。

使用道具

56
holybadger 发表于 2013-5-17 10:24:36 |只看作者 |坛友微信交流群
zhaoyongmin_nju 发表于 2013-5-16 09:40
王老师:
    您好,大数据时代,数据建模和处理的重要性是不言而喻的,想向您请教一下,未来数据智能的发 ...
这也是一个非常好的问题。我自己学数理统计出身,我曾经天真的认为:一切数据分析都可以全自动,全部由数据驱动,可以把定性知识抛在一边。但是,现在看来这是多么可笑。好的分析一定是定量+定性结合的。举一个例子,我们能否通过对海量网站的文本分析,把他们的行业特征找出来?如果完全靠机器学习,这里涉及到大量的分词,而且分词中,如何通过数据识别:玫瑰 和 百合 都是鲜花就是一个超级难的事情。但是,我们有定性的先验的关键词库啊,为什么不用呢?有了这样的定性知识指导,剩下的机器学习变得更加有效,更加准确。因此,定性分析对定量分析很重要!

使用道具

57
holybadger 发表于 2013-5-17 10:25:45 |只看作者 |坛友微信交流群
3862161 发表于 2013-5-16 10:05
王老师:
   您好!我拜读了您的一些文章,您处理的更多的是线性回归中变量选择的问题,请问关于非线性回归 ...
呵呵,这方面的文章很多。有兴趣可以参考一下Jianqing Fan 还有 Runze Li的主页。他们有很多相关文章。

使用道具

58
holybadger 发表于 2013-5-17 10:26:48 |只看作者 |坛友微信交流群
ruihuizhou 发表于 2013-5-16 10:09
您好,王老师,我是中南大博一的,希望好好的学习《动态规划》和《随机过程》,要求掌握的程度达到能够构建 ...
同学,谢谢您的信任。但是,很抱歉,我自己对动态规划和随机过程都不懂:-(

使用道具

59
holybadger 发表于 2013-5-17 10:31:58 |只看作者 |坛友微信交流群
wanggc023 发表于 2013-5-16 10:12
王老师,您好!
我再问一个具体的问题,我知道您写过很多好的降维方法的文章,我也拜读过。过去20年,多元 ...
您说的问题都很到点上。

(1)国内外对超高维的数据降维一直都有人关注的。这方面Dennis Cook, Lexin Li还有国内的朱利平老师都有非常好的工作。主要的挑战就是矩阵的逆。

(2)我自己不再做SDR了,原始就是你的第二。我估计出 一个SDR空间,然后呢?请问然后该怎么办?我能interpret吗?不能。我能预测吗?我看也不好说。如果我的目标是预测,我为什么不直接瞄准我的预测目的去,而绕着一个大弯。

所以,我对SDR的整个方向是怀疑的,不确信的。这也解释:为什么理论工作那么多,那么优美,真实世界有多少人用了?

使用道具

60
holybadger 发表于 2013-5-17 10:34:06 |只看作者 |坛友微信交流群
lssmy 发表于 2013-5-16 10:42
王老师:
您好,数据的分析最后的目的都是为了预测,以便实现更好的决策,最近美国研究人员,利用对google ...
前几天,我在微博上转过一个类似的报道。很多朋友给了有趣的反馈。其中一种意见很重要,那就是:怀疑!有人直接指出,某Twitter分析为基础的基金已经关门了!@#¥!#@

我对这件事情的基本态度是:(1)我不相信任何统计分析可以持续地预测市场走势,这和市场有效性的假说矛盾;(2)但是,我相信社交媒体的分析,也许可以预测volatility,这也许才是努力的方向。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-3 09:52