为什么用完dtm.a<-TermDocumentMatrix(ovid.a)后,dtm.a 的数据中总有\\n? 貌似英文没有这个问题。
详细如下:
###############################################################
>inspect(ovid.a)
A corpus with 5 text documents
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
[[1]]
东方红
[[2]]
东方
证券
[[3]]
东方
赢
家
[[4]]
东方
证券
开户
[[5]]
东方红
新
动力
#############################################################################
> inspect(dtm.a)
A document-term matrix (5 documents, 4 terms)
Non-/sparse entries: 4/16
Sparsity : 80%
Maximal term length: 8
Weighting : term frequency (tf)
Terms
Docs 东方红\\n 东方红\\n新\\n动力 开户\\n 赢\\n家\\n
1 1 0 0 0
2 0 0 0 0
3 0 0 0 1
4 0 0 1 0
5 0 1 0 0
>
############################################################################