楼主: jang12341
8028 8

[问答] 用tm做了termdocumentmatrix,corpus里面很多词都不见了 [推广有奖]

  • 0关注
  • 1粉丝

等待验证会员

大专生

80%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
466 点
帖子
42
精华
0
在线时间
31 小时
注册时间
2013-4-1
最后登录
2015-12-7

楼主
jang12341 发表于 2014-1-27 12:14:09 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1. patent<-readLines('C:/Users/zhangweiwei/Desktop/patentname_abstract_ipc.txt',encoding='UFT-8')
2. patentname_abstract1<-Corpus(VectorSource(patentname_abstract))
3. patentname_abstract2.2<-sapply(patentname_abstract1, extractNoun, USE.NAMES=F)
4. patentname_abstrapatentct3 <- sapply(patentname_abstract2, function(x) {Filter(function(y) {nchar(y) <= 4 && nchar(y) >=2 && is.hangul(y)},x)} )
5. patentname_abstract4<- Corpus(VectorSource(patentname_abstract3))
6.tdm <- DocumentTermMatrix(patentname_abstract4)

到第5步位置,所有的词都还在,使用DocumentTermMatrix函数之后,很多词都见了,有没有高手指点一下啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Document DOCUME matrix term Corp patent

沙发
jang12341 发表于 2014-1-27 14:06:23
有用过tm包的,请指点

藤椅
xinguanxk 发表于 2015-1-20 22:27:31
这个函数现在貌似连用都有问题。

板凳
万人往LVR 在职认证  发表于 2015-4-16 15:37:04
dtm<-DocumentTermMatrix(ovid,control=list(wordLengths=c(2,Inf)))#建立关联矩阵,最小字长为2

默认最小字长是3,所以长度小于3的都被删去了

刚刚遇到这个问题,时间对你有点久了

报纸
墨痕01 学生认证  发表于 2016-1-19 14:41:37
请问楼主的这个函数是什么?extractNoun

地板
旁白sj 发表于 2016-3-27 17:09:30
万人往LVR 发表于 2015-4-16 15:37
dtm
请问用了DocumentTermMatrix之后词频矩阵出现 \n的情况是怎么回事?   (例如:“我\n是\n人名”、“约\n好\n晚上”)

7
ljy19921005 发表于 2016-6-20 08:51:54
旁白sj 发表于 2016-3-27 17:09
请问用了DocumentTermMatrix之后词频矩阵出现 \n的情况是怎么回事?   (例如:“我\n是\n人名”、“约\n ...
我也有这问题,处理不了

8
马甲1号 发表于 2016-6-20 09:06:14
分词模块用的是jiebaR吗?
jiebaR网上有教程http://ju.outofmemory.cn/entry/217615,其他分词模块应该也可以用类似方法搞定。

9
tszxyuan 发表于 2017-9-18 14:31:59
ljy19921005 发表于 2016-6-20 08:51
我也有这问题,处理不了
如果tm是老版本,可以先设置
Sys.setlocale(locale = "English")
等生成矩阵之后再改回中文环境

如果是新版本,这个问题已经解决了,不会再出现这种情况了

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 14:58