楼主: AlexYoung757
26610 36

[学科前沿] R语言如何运用到LDA主题模型分析 [推广有奖]

21
怪圈00 发表于 2017-4-15 12:28:17 |只看作者 |坛友微信交流群
AlexYoung757 发表于 2016-6-20 20:30
主题数的选取可以采用复杂度或者对数似然进行选取
请问大神,CTM中主题数目 呢? 除了复杂度和对数似然 还有什么方法呢?

使用道具

22
怪圈00 发表于 2017-4-20 21:08:20 |只看作者 |坛友微信交流群
AlexYoung757 发表于 2015-7-8 13:58
感谢大神的推荐 正在学习中!看了一下topic models in R的论文 我现在的想法是改进里面提到的CTM模型 然后 ...
你好,请问一下怎么用R语言CTM模型,以及计算该模型的困惑度呢?求指导~

使用道具

23
王柏林 发表于 2017-4-27 12:55:42 |只看作者 |坛友微信交流群
AlexYoung757 发表于 2016-7-25 17:05
可以重写dtm函数 这个是因为R现在的版本不是很支持中文
在吗 同为LDA
求助

使用道具

24
AlexYoung757 在职认证  学生认证  发表于 2017-4-29 15:45:21 |只看作者 |坛友微信交流群
怪圈00 发表于 2017-4-20 21:08
你好,请问一下怎么用R语言CTM模型,以及计算该模型的困惑度呢?求指导~
topicmodel包里有很多方法,可以查看;困惑度的话有perplexity函数

使用道具

25
AlexYoung757 在职认证  学生认证  发表于 2017-4-29 15:45:59 |只看作者 |坛友微信交流群
怪圈00 发表于 2017-4-15 12:28
请问大神,CTM中主题数目 呢? 除了复杂度和对数似然 还有什么方法呢?
关于主题数的方法有很多 比如用基于密度的dbscan聚类算法

使用道具

26
陌Moderato 发表于 2017-6-13 14:38:33 |只看作者 |坛友微信交流群
AlexYoung757 发表于 2016-6-20 20:30
现在已经很熟悉使用R建立主题模型了
请问大神,在查看DTM时显示, Error in nchar(Terms(x), type = "chars") :  invalid multibyte string, element 15615     是什么原因? 怎么解决呢??

使用道具

27
AlexYoung757 在职认证  学生认证  发表于 2017-6-13 16:11:25 |只看作者 |坛友微信交流群
陌Moderato 发表于 2017-6-13 14:38
请问大神,在查看DTM时显示, Error in nchar(Terms(x), type = "chars") :  invalid multibyte string,  ...
可能是数据有问题

使用道具

28
陌Moderato 发表于 2017-7-7 20:37:23 |只看作者 |坛友微信交流群
AlexYoung757 发表于 2017-6-13 16:11
可能是数据有问题
嗯嗯, 谢啦!
还想请问你个问题, 我将DTM降维,分别计算tfidf 和tf,剔除权重低的20%的词项,tfidf处理的DTM有27771篇文章,28182词, 7.3MB;   tf处理的DTM有27778篇文章,28183词, 17.5MB。   两个DTM篇幅和词汇数量都差不多 ,为什么矩阵大小差异这么大呢??

使用道具

29
AlexYoung757 在职认证  学生认证  发表于 2017-7-14 13:52:33 |只看作者 |坛友微信交流群
陌Moderato 发表于 2017-7-7 20:37
嗯嗯, 谢啦!
还想请问你个问题, 我将DTM降维,分别计算tfidf 和tf,剔除权重低的20%的词项,tfidf处理 ...
可能存储的方式不一样

使用道具

30
2683882319 发表于 2017-8-24 12:12:53 |只看作者 |坛友微信交流群
我的topicmodels包可以安装,但加载时出现以下错误:
错误: package or namespace load failed for ‘topicmodels’ in loadNamespace(j <- i[[1L]], c(lib.loc, .libPaths()), versionCheck = vI[[j]]):
载入了名字空间‘tm’ 0.5-10,但需要的是>= 0.6
不知道是啥原因

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 05:38