楼主: tiantanshu
3000 2

[问答] 用tm包处理中文遇到问题 [推广有奖]

  • 3关注
  • 3粉丝

博士生

60%

还不是VIP/贵宾

-

威望
0
论坛币
878 个
通用积分
1.0572
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
9688 点
帖子
222
精华
0
在线时间
384 小时
注册时间
2011-3-3
最后登录
2022-9-5

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我用Rwordseg包将中文语句分词后,形成的词汇都如    ‘你好’  ‘谢谢’ 这类看着很正常的词汇。
但是用tm包中的Corpus函数建立语料库后,有些词发生了合并,并且在是使用  ‘\n’  进行的合并。
例如:“销售\n产品”
这个是为什么呢?该如何解决呢?用tm包处理中文的词汇,一定会这样么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:words word Corp 语料库 cor 语料库 中文 产品 如何

沙发
旁白sj 发表于 2016-3-25 10:17:46 |只看作者 |坛友微信交流群
出现同样的问题,请问楼主解决了没?

使用道具

藤椅
ofzhengyi 发表于 2017-8-1 21:03:44 |只看作者 |坛友微信交流群
分析前先
Sys.setlocale(locale="English")
分析后再恢复设置即可
Sys.setlocale(locale="")
详见www.zhihu.com/question/39615472

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 07:54