发帖

楼主: tiantanshu

3400 2

[问答] 用tm包处理中文遇到问题 [推广有奖]

3关注
3粉丝

博士生

60%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 878 个
通用积分: 5.2910
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 9688 点
帖子: 222
精华: 0
在线时间: 384 小时
注册时间: 2011-3-3
最后登录: 2022-9-5

楼主

tiantanshu 发表于 2015-9-14 09:48:30 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

我用Rwordseg包将中文语句分词后，形成的词汇都如 ‘你好’ ‘谢谢’ 这类看着很正常的词汇。
但是用tm包中的Corpus函数建立语料库后，有些词发生了合并，并且在是使用 ‘\n’ 进行的合并。
例如：“销售\n产品”
这个是为什么呢？该如何解决呢？用tm包处理中文的词汇，一定会这样么？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：words word Corp 语料库 cor 语料库中文产品如何

[问答] 用tm包处理中文遇到问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[问答] 用tm包处理中文遇到问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群