楼主: ciarui
6831 8

[问答] [ 文本分析]TermDocumentMatrix中文转换问题? [推广有奖]

  • 0关注
  • 0粉丝

初中生

90%

还不是VIP/贵宾

-

威望
0
论坛币
67 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
137 点
帖子
20
精华
0
在线时间
20 小时
注册时间
2008-12-17
最后登录
2017-6-2

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
为什么用完dtm.a<-TermDocumentMatrix(ovid.a)后,dtm.a 的数据中总有\\n? 貌似英文没有这个问题。
详细如下:
###############################################################
>inspect(ovid.a)
A corpus with 5 text documents

The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator
Available variables in the data frame are:
  MetaID

[[1]]
东方红

[[2]]
东方
证券

[[3]]
东方



[[4]]
东方
证券
开户

[[5]]
东方红

动力
#############################################################################
> inspect(dtm.a)
A document-term matrix (5 documents, 4 terms)

Non-/sparse entries: 4/16
Sparsity           : 80%
Maximal term length: 8
Weighting          : term frequency (tf)

    Terms
Docs 东方红\\n 东方红\\n新\\n动力 开户\\n 赢\\n家\\n
   1        1                0      0        0
   2        0                0      0        0
   3        0                0      0        1
   4        0                0      1        0
   5        0                1      0        0
>

############################################################################
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Document matrix DOCUME 中文转换 term documents 东方证券 东方红 中文转换 东方赢家

沙发
complicated 在职认证  发表于 2014-5-19 13:09:54 |只看作者 |坛友微信交流群
中文分词没做好吧,//n貌似是回车符号,
还有转dtm之前可以清洗一下,tm_map( corpus ,removePunctuation) 试试?
密码被盗??

使用道具

藤椅
visuallion 发表于 2014-8-19 23:44:15 |只看作者 |坛友微信交流群
问题解决了没有啊,我也遇到同样的问题,求教。

使用道具

板凳
xinguanxk 发表于 2015-1-20 23:05:18 |只看作者 |坛友微信交流群
visuallion 发表于 2014-8-19 23:44
问题解决了没有啊,我也遇到同样的问题,求教。
这个函数现在好像已经不能用了·····

使用道具

报纸
zwsuo2001 发表于 2015-6-4 08:35:38 |只看作者 |坛友微信交流群
你好,请问问题解决了吗

使用道具

地板
georgy 发表于 2015-6-12 16:04:11 |只看作者 |坛友微信交流群
不要使用R 3.10以上的版本。
用R3.0.2就没有问题。
开源软件就是这样的,没人可以保证它的质量,我已经在R里进过很多坑了。。。

使用道具

7
墨痕01 学生认证  发表于 2016-1-19 14:44:06 |只看作者 |坛友微信交流群
请问楼主用这个包是怎么将中文语料库导进去的

使用道具

8
AWENSCHAMPA 发表于 2016-4-6 17:14:00 |只看作者 |坛友微信交流群
segmentCN(x,returnType="tm")

使用道具

9
cooooocat 发表于 2016-8-29 12:39:58 |只看作者 |坛友微信交流群
这个带“\n”问题,我也遇到了,请问有彻底的解决办法么?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-29 06:16