楼主: AlexYoung757
28490 36

[学科前沿] R语言如何运用到LDA主题模型分析 [推广有奖]

21
怪圈00 发表于 2017-4-15 12:28:17
AlexYoung757 发表于 2016-6-20 20:30
主题数的选取可以采用复杂度或者对数似然进行选取
请问大神,CTM中主题数目 呢? 除了复杂度和对数似然 还有什么方法呢?

22
怪圈00 发表于 2017-4-20 21:08:20
AlexYoung757 发表于 2015-7-8 13:58
感谢大神的推荐 正在学习中!看了一下topic models in R的论文 我现在的想法是改进里面提到的CTM模型 然后 ...
你好,请问一下怎么用R语言CTM模型,以及计算该模型的困惑度呢?求指导~

23
王柏林 发表于 2017-4-27 12:55:42
AlexYoung757 发表于 2016-7-25 17:05
可以重写dtm函数 这个是因为R现在的版本不是很支持中文
在吗 同为LDA
求助

24
AlexYoung757 在职认证  学生认证  发表于 2017-4-29 15:45:21
怪圈00 发表于 2017-4-20 21:08
你好,请问一下怎么用R语言CTM模型,以及计算该模型的困惑度呢?求指导~
topicmodel包里有很多方法,可以查看;困惑度的话有perplexity函数

25
AlexYoung757 在职认证  学生认证  发表于 2017-4-29 15:45:59
怪圈00 发表于 2017-4-15 12:28
请问大神,CTM中主题数目 呢? 除了复杂度和对数似然 还有什么方法呢?
关于主题数的方法有很多 比如用基于密度的dbscan聚类算法

26
陌Moderato 发表于 2017-6-13 14:38:33
AlexYoung757 发表于 2016-6-20 20:30
现在已经很熟悉使用R建立主题模型了
请问大神,在查看DTM时显示, Error in nchar(Terms(x), type = "chars") :  invalid multibyte string, element 15615     是什么原因? 怎么解决呢??

27
AlexYoung757 在职认证  学生认证  发表于 2017-6-13 16:11:25
陌Moderato 发表于 2017-6-13 14:38
请问大神,在查看DTM时显示, Error in nchar(Terms(x), type = "chars") :  invalid multibyte string,  ...
可能是数据有问题

28
陌Moderato 发表于 2017-7-7 20:37:23
AlexYoung757 发表于 2017-6-13 16:11
可能是数据有问题
嗯嗯, 谢啦!
还想请问你个问题, 我将DTM降维,分别计算tfidf 和tf,剔除权重低的20%的词项,tfidf处理的DTM有27771篇文章,28182词, 7.3MB;   tf处理的DTM有27778篇文章,28183词, 17.5MB。   两个DTM篇幅和词汇数量都差不多 ,为什么矩阵大小差异这么大呢??

29
AlexYoung757 在职认证  学生认证  发表于 2017-7-14 13:52:33
陌Moderato 发表于 2017-7-7 20:37
嗯嗯, 谢啦!
还想请问你个问题, 我将DTM降维,分别计算tfidf 和tf,剔除权重低的20%的词项,tfidf处理 ...
可能存储的方式不一样

30
2683882319 发表于 2017-8-24 12:12:53
我的topicmodels包可以安装,但加载时出现以下错误:
错误: package or namespace load failed for ‘topicmodels’ in loadNamespace(j <- i[[1L]], c(lib.loc, .libPaths()), versionCheck = vI[[j]]):
载入了名字空间‘tm’ 0.5-10,但需要的是>= 0.6
不知道是啥原因

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 06:52