r语言文本挖掘 - 经管之家

4关注
2粉丝

博士生

82%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 10.0386
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 1308 点
帖子: 104
精华: 0
在线时间: 552 小时
注册时间: 2014-11-18
最后登录: 2026-1-24

楼主

风雨兼程12 发表于 2016-6-14 17:48:16 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

各位大神，请问一下大家在利用R做文本挖掘分类时，要产生DocumentTermMatrix，然后利用DocumentTermMatrix进行降维处理，从而实现分类。
可是我产生的dtm矩阵出现这样的情况
Terms
Docs 阿玛施\n新春    癌\n种\n    爱国             爱心       安排
1          0                0                0                   0          0
2          1                0                0                   0          0
3          0                0                0                   0          0
4          0                0                0                   0          0
5          0                0                0                   0          0

产生的矩阵含有\n标签，按理说“阿玛施”和“新春”是两个词才对，为什么将其当做一个词处理？
我看了一篇帖子，里面说在分词的时候加上segmentCN()设置一下参数returnType = 'tm'，结果是这样的：
Terms
Docs 阿玛施  新春    癌  种       爱国             爱心       安排
1          0                0                0                   0          0
2          1                0                0                   0          0
3          0                0                0                   0          0
4          0                0                0                   0          0
5          0                0                0                   0          0

虽然\n标签没有了但是结果跟上面的结果一模一样啊，
其实阿玛施和  新春应该是两个词这里为什么把它当做一个词呢，  “癌”和“种”是单个字，在生成dtm矩阵的时候我就把它删除了，这里为什么还有呢
dtm<-DocumentTermMatrix(corpus, control=list(removePunctuation = TRUE,wordLengths = c(2, Inf)))

求大神赐教

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：文本挖掘 R语言 segmentCN Document segment

相关帖子

沙发

bbslover

发表于 2016-6-14 23:59:01

检查你原始文件格式，是否带有空格等等

藤椅

风雨兼程12 发表于 2016-6-15 14:07:46

bbslover 发表于 2016-6-14 23:59
检查你原始文件格式，是否带有空格等等

大神有空吗我想具体问一下你，好像不是这个格式的原因

板凳

风雨兼程12 发表于 2016-6-15 14:43:10

风雨兼程12 发表于 2016-6-15 14:07
大神有空吗我想具体问一下你，好像不是这个格式的原因

能把扣扣给我吗我加你具体问一下谢谢

报纸

吴_楚 发表于 2016-6-22 18:33:00

可以把这些字添加到用户字典中

地板

风雨兼程12 发表于 2016-6-23 09:09:56

吴_楚发表于 2016-6-22 18:33
可以把这些字添加到用户字典中

用户字典里有呢已经解决了是tm包里面的一个bug造成的

7楼

吴_楚 发表于 2016-6-23 11:11:49

风雨兼程12 发表于 2016-6-23 09:09
用户字典里有呢已经解决了是tm包里面的一个bug造成的

那能说说是怎么解决的么

8楼

风雨兼程12 发表于 2016-6-23 20:55:06

吴_楚发表于 2016-6-23 11:11
那能说说是怎么解决的么

知乎上有个文章，那个人把tm包里面的函数给修改了，他把修改过后的包分享在上面了，你把它下下来重新装上就行了

9楼

风雨兼程12 发表于 2016-6-23 20:58:03

吴_楚发表于 2016-6-23 11:11
那能说说是怎么解决的么

这是链接里面有的
http://www.zhihu.com/question/39615472

[问答] r语言文本挖掘 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[问答] r语言文本挖掘 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群