楼主: 资料狂人
19382 75

[张俊妮] 北大光华张俊妮(蒙特卡洛方法、数据挖掘)在线访谈预提问   [推广有奖]

21
caixiaqing 发表于 2013-4-26 08:55:04
张老师,您好,关于数据挖掘,我想请教您,在具体的分析过程中,如何来处理各个相关影响因子。在课本上,讲的都比较理论一些,可是在实际中,各种因素错综复杂,相互纠缠,这必然面临一个因素次要的选择问题,请问老师您对这方面有什么经验可以向我们传授?
已有 1 人评分论坛币 收起 理由
资料狂人 + 50 鼓励积极发帖讨论

总评分: 论坛币 + 50   查看全部评分

22
sqy 发表于 2013-4-26 08:55:58
请教张教授,大数据背景下数据分析人员与传统的统计分析人员之间的相同和差异何在?传统的统计分析人员是否需要转型或应如何转型?

23
hbhjhf 在职认证  发表于 2013-4-26 09:01:49
如今big data 炒的很火,无论政界、商界、学界还是公众,都高度关注。
张教授兼具计算机与统计背景,必然对此领域有深入认识。
请教:大数据时代,统计学面临何种机遇与挑战,传统统计方法(基于样本推断总体)在大数据处理技术(将处理的巨量数据视为总体)面前,真如波兰骑兵团遭遇德国坦克师一样无力吗?
哈佛统计系作为北美统计研究重镇,那边的教授们怎么看此类问题?
已有 1 人评分论坛币 收起 理由
资料狂人 + 50 鼓励积极发帖讨论

总评分: 论坛币 + 50   查看全部评分

24
不死稻草人 在职认证  发表于 2013-4-26 09:03:00
先顶再看好习惯,楼主受迫害了?
【创业人】每日论坛币福利
【创业资讯】收集每日有价值的创业资讯
【创业人】|58论坛币奖|移动端发帖
关注 不死稻草人
把握【创业人】最新动态
帮助人大经济论坛推广,复制帖子内容(带人大经济论坛网址)并发

25
yeting2000 在职认证  发表于 2013-4-26 09:12:54
张老师:
      您好!感谢您百忙之中抽出宝贵时间为我们解答问题,我的问题是:例如一家以销售为主的公司,它在于客户的交流和市场的探寻过程,肯定会通过前期的交流收集到各种数据。但是许多一线销售人员包括基层的管理者却不会针对收集到的数据进行分析,无法从纷繁复杂的各种数据中找到自己想要的和本质的东西。我想请问您一下,在数据分析中,作为这样一些基层的群体,应该通过什么样的流程和操作,准确的把握和分析好数据呢?谢谢
已有 1 人评分论坛币 收起 理由
资料狂人 + 50 鼓励积极发帖讨论

总评分: 论坛币 + 50   查看全部评分

26
Mizuhotina 发表于 2013-4-26 09:32:21
学习

27
NoHL 发表于 2013-4-26 09:56:50
教授您好,看到您的研究领域有:因果推断 和 数据挖掘
那么请问如下问题:在进行大数据挖掘的时候,经常会遇到关联性问题,比如两个时间序列之间的关联系数,通常使用的有Pearson系数和Spearman系数,他们反映两个时间序列之件的线性或非线性的关联程度,但是并不明显表达出因果性——即究竟哪个时间序列是自变量那个是因变量,尤其在多时间序列之间,理论上任意两个都存在关联系数,但是涉及到因果性也会变得更加“模糊”。故请教您在大数据挖掘中,如何对关联性较强的数据进行因果判断,尤其是多时间序列之间的相互因果?


另外关于蒙特卡罗算法也有一个问题:
在金融时间序列中,金融数据的分布是呈现出一些不太寻常的分布特点的,例如对于一些资产或者证券的log-return进行的分析就不难发现存在着一些有趣的分布规律。在构造金融时间序列的时候,也常会用到一些需要模拟数据的情况出现,那么请问您,现在蒙特卡罗算法如何解决金融数据模拟当中的一些“极端”情况,例如不规则分布,尤其是尖峰、长尾、厚尾,如果保证生成的数据具有和真实金融数据一样的统计特性,蒙特卡罗目前在金融数据模拟尤其是模拟数据生成中,相比于其他方法或操作,例如分形法、序列重排等,具有哪些优势?
已有 1 人评分论坛币 收起 理由
资料狂人 + 50 鼓励积极发帖讨论

总评分: 论坛币 + 50   查看全部评分

28
wuhui1018 在职认证  发表于 2013-4-26 10:01:46
张老师:您好!我个人最近对MCMC比较感兴趣。而里面主要两种算法。EM算法与GIBSS。大概就只知道这么多,因为只是想直接应用,不想专门去读一些MCMC大部头的书。所以很想请教张老师有没有一些比较适合快速了解MCMC这两种算法的比较详细的讲义或者学术论文。或者您给推荐一些资料,在此非常感谢!
已有 1 人评分论坛币 收起 理由
资料狂人 + 50 鼓励积极发帖讨论

总评分: 论坛币 + 50   查看全部评分

29
NoHL 发表于 2013-4-26 10:05:39
hbhjhf 发表于 2013-4-26 09:01
如今big data 炒的很火,无论政界、商界、学界还是公众,都高度关注。
张教授兼具计算机与统计背景,必然对 ...
呵呵,和大数据沾边的路过。。实际上我感觉做大数据不是为了巨量而巨量,而是为了小量而巨量,研究巨量的目的是重新回归小量。。。之前做过的一个东西,数据量几十亿,最后各种方法挖掘,得出的结论就是几个图表和几十个数据而已。但是这并非就是意味着传统的sample然后研究的方法就有问题,很多情况下,其实依然有效。
那些遵循大数收敛的我觉得就没有必要非要搞海量,而一些较为独特的方面,不得不对全部数据或者巨量数据挖掘——否则会丢失重要信息的,就不得不进行,但是在得到了相关结论之后,就会发现可能在海量数据中,依然存在主要和次要部分。。例如我之前做的那个东西,在进行海量数据挖掘之后,证实了其中很多数据并没有那么重要,或者不会对结果带来本质上影响,那么今后在研究类似问题的时候,在需要快速或者定性得到结论的时候,就可以只对主要部分进行研究,也就是说,通过海量数据研究得到了研究对象的内在一些结构,这些结构未来可以指导我们更加有效的抽样而不失去总体特征,加快研究效率,因为有些金融上的东西,time is money ,做大数据研究等不起。。

30
315525625 在职认证  发表于 2013-4-26 10:09:51

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 12:51