|
张老师您好,学生也对数据挖掘与MCMC十分有兴趣。
1. 很多数据挖掘的方法,由于它算法本身隐藏性,很多应用类的文章(特别是非统计类的期刊应用新的数据挖掘方法那种)都会说这些方法是非参数的,也不需要分布的假设,例如对称之类的,甚至很多认为很怪异的分布也可以应用。但仔细看了算法后,发现很多软件在这些模型的实现时很多时候是最优化MSE的,直觉上认为这些模型也需要满足一定的假设。
问题却来了,这些模型算法本身的隐含性令我们不太清楚它具体需要什么假设,有些更是模型本身不需要,但在某些软件算法的实现上为了计算量方便,选了一些近似(几乎都是如此),所以也加上了更多的假设。而这些模型本身没有什么诊断的工具去验证这些假设。
而一般大家普遍用testing set做MSE来计量,而大多这些模型又比简单的MSE更小,但却不清楚他们的假设是否成立。
请问老师有何看法呢?
2. 最近在做一些时间序列方面的数据,很多数据挖掘的模型boosting啊,random forest啊以前都觉得很准确,却不知道时候能用在时间序列里,毕竟时间序列本身自相关,而这些模型在时间序列方面的研究也不多。请问老师有什么好的推荐,用什么数据挖掘的模型对时间序列比较好呢?好让我有点方向。
3. MCMC可以相对自由地构造我们自己需要的函数的估计,这个很好。
但在PC上做时还是效率不高,听说现在有些新的方向可以提高MCMC的效率,例如PMCMC等的,还有设么的,请老师做做相关的介绍。
谢谢老师
|