楼主: tzy3169
7989 3

[问答] 如何使用DocumentTermMatrix函数 [推广有奖]

  • 0关注
  • 0粉丝

硕士生

31%

还不是VIP/贵宾

-

威望
0
论坛币
992 个
通用积分
1.1000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1092 点
帖子
53
精华
0
在线时间
180 小时
注册时间
2015-2-13
最后登录
2022-8-2

楼主
tzy3169 发表于 2015-6-23 19:12:57 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我在做中文文本的分类代码如下:words<-as.character(csv$keywords)
words<-strsplit(words,',')
corpus = Corpus(VectorSource(words))
(dtm <- DocumentTermMatrix(corpus))

之后使用dtm$dimnames查看发现其中出现了类似“最新研究\n科学家发现\n摄影”这个几个词组合在一起的情况,为什么会出现这样的情况,还有我该如何做才能够避免这类情况发生?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Document DOCUME matrix term 如何使用 语料库 中文 如何

沙发
ryoeng 在职认证  发表于 2015-6-25 00:37:04
提示: 作者被禁止或删除 内容自动屏蔽

藤椅
langmalee 发表于 2016-1-11 19:32:28
是因为词的长度不统一。如果你都是用两个词,就不会出现那个情况。

板凳
旁白sj 发表于 2016-3-27 15:36:36
langmalee 发表于 2016-1-11 19:32
是因为词的长度不统一。如果你都是用两个词,就不会出现那个情况。
两个词?我把词的长度统一后测试,结果还是一样呢

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 06:34