楼主: 风雨兼程12
2243 8

[问答] r语言文本挖掘 [推广有奖]

  • 4关注
  • 2粉丝

博士生

82%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
10.0386
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1308 点
帖子
104
精华
0
在线时间
551 小时
注册时间
2014-11-18
最后登录
2025-9-6

楼主
风雨兼程12 发表于 2016-6-14 17:48:16 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
各位大神,请问一下大家在利用R做文本挖掘分类时,要产生DocumentTermMatrix,然后利用DocumentTermMatrix进行降维处理,从而实现分类。
可是我产生的dtm矩阵出现这样的情况
    Terms
Docs 阿玛施\n新春     癌\n种\n      爱国              爱心         安排
   1            0                  0                 0                     0           0
   2            1                  0                 0                     0           0
   3            0                  0                 0                     0           0
   4            0                  0                 0                     0           0
   5            0                  0                 0                     0           0

产生的矩阵含有\n标签,按理说“阿玛施”和“新春”是两个词才对,为什么将其当做一个词处理?
我看了一篇帖子,里面说在分词的时候加上segmentCN()设置一下参数returnType = 'tm',结果是这样的:
    Terms
Docs 阿玛施  新春     癌  种          爱国              爱心         安排
   1            0                  0                 0                     0           0
   2            1                  0                 0                     0           0
   3            0                  0                 0                     0           0
   4            0                  0                 0                     0           0
   5            0                  0                 0                     0           0

虽然\n标签没有了但是结果跟上面的结果一模一样啊,
其实   阿玛施 和  新春 应该是两个词   这里为什么把它当做一个词呢,  “癌”和“种”是单个字,在生成dtm矩阵的时候我就把它删除了 ,这里为什么还有呢
dtm<-DocumentTermMatrix(corpus, control=list(removePunctuation = TRUE,wordLengths = c(2, Inf)))

求大神赐教
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:文本挖掘 R语言 segmentCN Document segment

沙发
bbslover 在职认证  发表于 2016-6-14 23:59:01
检查你原始文件格式,是否带有空格等等

藤椅
风雨兼程12 发表于 2016-6-15 14:07:46
bbslover 发表于 2016-6-14 23:59
检查你原始文件格式,是否带有空格等等
大神 有空吗 我想具体问一下你,好像不是这个格式的原因

板凳
风雨兼程12 发表于 2016-6-15 14:43:10
风雨兼程12 发表于 2016-6-15 14:07
大神 有空吗 我想具体问一下你,好像不是这个格式的原因
能把扣扣给我吗  我加你  具体问一下 谢谢

报纸
吴_楚 发表于 2016-6-22 18:33:00
可以把这些字添加到用户字典中

地板
风雨兼程12 发表于 2016-6-23 09:09:56
吴_楚 发表于 2016-6-22 18:33
可以把这些字添加到用户字典中
用户字典里有呢  已经解决了 是tm包里面的一个bug造成的

7
吴_楚 发表于 2016-6-23 11:11:49
风雨兼程12 发表于 2016-6-23 09:09
用户字典里有呢  已经解决了 是tm包里面的一个bug造成的
那能说说是怎么解决的么

8
风雨兼程12 发表于 2016-6-23 20:55:06
吴_楚 发表于 2016-6-23 11:11
那能说说是怎么解决的么
知乎上有个文章,那个人把tm包里面的函数给修改了,他把修改过后的包分享在上面了,你把它下下来重新装上就行了

9
风雨兼程12 发表于 2016-6-23 20:58:03
吴_楚 发表于 2016-6-23 11:11
那能说说是怎么解决的么
这是链接  里面有的
http://www.zhihu.com/question/39615472

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-20 07:27