楼主: 张群0703
5221 11

[问答] R语言主题模型分类 [推广有奖]

  • 0关注
  • 2粉丝

本科生

43%

还不是VIP/贵宾

-

威望
0
论坛币
1 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
99 点
帖子
73
精华
0
在线时间
62 小时
注册时间
2014-8-11
最后登录
2015-1-4

楼主
张群0703 发表于 2014-9-25 18:12:15 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大家好,我用R语言做主题模型的时候,可以得到每个文本的Top5的关键字,现在想利用关键字对文本分类。
举例说明就是:
现假设有5个文本,每个文本的类别已知,分别是IT,汽车,金融,旅游,招聘
利用主题模型处理后,得到每个文本的Top5关键字分别是
1               2            3        4          5
新浪      丰田      证券     长城    大街网
百度      奔驰      银行      古城   简历
.....
.....
现在我想自动匹配一下,根据关键字把文本划分到对应的类别中,不知道该怎么做,还希望有想法的人能帮忙提供一下思路
谢谢~~~~~~~~~

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:主题模型 R语言 关键字 Top 大家好 主题 模型

沙发
olympic 发表于 2014-9-25 20:19:53
用主题模型处理后,还不知道该怎么做?

藤椅
张群0703 发表于 2014-9-26 09:39:43
olympic 发表于 2014-9-25 20:19
用主题模型处理后,还不知道该怎么做?
我刚接触R,是真的不知道该怎么继续下去,如果你知道,能指点一下我吗?感激不尽

板凳
张群0703 发表于 2014-9-26 10:35:40
顶一顶

报纸
olympic 发表于 2014-9-26 12:24:37
张群0703 发表于 2014-9-26 09:39
我刚接触R,是真的不知道该怎么继续下去,如果你知道,能指点一下我吗?感激不尽
> 根据关键字把文本划分到对应的类别中
这是要划分新文本的类别?

好像比较简单的办法是分配权值,匹配已知类别的关键字时候累加权值。
遇到“简历&证券”时,可能是金融招聘方面的文本。
稍复杂点的模型一般带解码器之类的,不知道你用的哪个主题模型。

地板
张群0703 发表于 2014-9-26 13:35:13
olympic 发表于 2014-9-26 12:24
> 根据关键字把文本划分到对应的类别中
这是要划分新文本的类别?
我用的是LDA模型。是要分配到已知的类别中。

7
sml90825 发表于 2015-8-30 13:29:43
请问大神,主题模型LDA函数中,主题数量设置多少比较合适呢,比如我有100个文档,主题数应该选择多少呢??

8
2683882319 发表于 2017-9-4 23:10:15
sml90825 发表于 2015-8-30 13:29
请问大神,主题模型LDA函数中,主题数量设置多少比较合适呢,比如我有100个文档,主题数应该选择多少呢?? ...
可以将复杂度和对数似然值变化的拐点对应的主题数作为标准主题数,拐点以后复杂度和对数似然值的变化区域平缓。观察拐点和趋势需要对数据可视化,因此,需要分别做复杂度、对数似然值与主题数目的趋势图。

9
AlexYoung757 在职认证  学生认证  发表于 2017-9-5 09:07:30
2683882319 发表于 2017-9-4 23:10
可以将复杂度和对数似然值变化的拐点对应的主题数作为标准主题数,拐点以后复杂度和对数似然值的变化区域 ...
https://github.com/trinker/topicmodels_learning  拿去不谢 大兄弟

10
AlexYoung757 在职认证  学生认证  发表于 2017-9-5 09:08:44
张群0703 发表于 2014-9-26 13:35
我用的是LDA模型。是要分配到已知的类别中。
有特征 有label不知道怎么做分类吗 大兄弟

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 02:42