虽然conceptually,对于时序序列数据的研究,挖掘其中的pattern也算是data mining的任务,但传统上DM更热衷于作classification方面的研究,regression是最近十年来由于DM与statistics越走越近才开始系统研究的。此外,Machine Learning/Statistical Learning传统上对data有iid的要求(虽然进来有所relax)。
统计学中常用的非参回归方法(spline, local polynomial, wavelet-like methods)中local polynomial method已经被较多的用于time series/econometrics的研究。
代表作有我老师Jianqing Fan的Nonlinear Time Series : Nonparametric and Parametric Methods (Springer Series in Statistics)
这本书现在国内也出版了。当然要更好的理解本书,也许先看Local Polynomial Modelling and Its Applications -- by Jianqing Fan会有些帮助。
最来ML领域很热的kernel method/SVM也被用于time series,比如用SVR(support vector regression)来对time series data作regression就比传统的MLE要好(因为MLE的参数方法难免Model Bias)
另外DM经常被置于一个更广阔的数据库知识发现(KDD)的大背景下,
KDD主要包括选择目标数据,预处理数据(preprocessing),转化数据(transformation),进行数据挖掘,模式提取以及诠释。
DM一般的入门书有:
Principles of Data Mining by D.Hand,etal
这本概念框架写的不错,但是内容不够深入,比较单薄。
Elements of Statistical Learning by Hastie, Tibshirani, Friedman
stat@stanford的三个教授写的,这本稍稍深入一些。
Data Mining by Han and Kamber 这本偏data base。
Data Mining by Witten and Franke 这本偏machine learning。
还有就是专门讲SVM的An Introduction to SVM by Cristianini & Shawe-Taylor
更加理论一点的有Vapnik的经典之作:Statistical Learning Theory.
[此贴子已经被作者于2006-3-27 7:35:59编辑过]