R实现information retrieval的package大多不是很成熟。但是近日偶然间发现实现LDA的这个package做的很不错。 Latent Dirichlet Allocation (LDA : not linear discriminant analysis)是近年来在information retrieval领域十分流行的方法。该该方法的提出(Blei, Ng, Jordan 2003)引领了随后众多的被称为topic model的方法。这个方法在java, c , python下都有不错的library。cran上面这个包看来做的也很好。里面的拟合是通过collapsed Gibbs Sampling 实现的,而且提供了一些很基本的做nlp的转换函数,能比较方便的实现诸多功能。模型拟合是通过后台调用c code的,速度不错。大家有兴趣的话可以尝试使用一下:
http://cran.r-project.org/web/packages/lda/