[ 文本分析]TermDocumentMatrix中文转换问题？

0关注
0粉丝

初中生

85%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 67 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 134 点
帖子: 19
精华: 0
在线时间: 20 小时
注册时间: 2008-12-17
最后登录: 2017-6-2

楼主

ciarui 发表于 2014-5-19 10:49:23 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

为什么用完dtm.a<-TermDocumentMatrix(ovid.a)后，dtm.a 的数据中总有\\n? 貌似英文没有这个问题。
详细如下：
###############################################################
>inspect(ovid.a)
A corpus with 5 text documents

The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator
Available variables in the data frame are:
  MetaID

[[1]]
东方红

[[2]]
东方
证券

[[3]]
东方
赢
家

[[4]]
东方
证券
开户

[[5]]
东方红
新
动力
#############################################################################
> inspect(dtm.a)
A document-term matrix (5 documents, 4 terms)

Non-/sparse entries: 4/16
Sparsity          : 80%
Maximal term length: 8
Weighting       : term frequency (tf)

Terms
Docs 东方红\\n 东方红\\n新\\n动力开户\\n 赢\\n家\\n
1       1             0    0       0
2       0             0    0       0
3       0             0    0       1
4       0             0    1       0
5       0             1    0       0
>

############################################################################