楼主: sssyunsheng
2529 3

[程序分享] 文本挖掘第一步:Rwordseg分词包安装全过程 [推广有奖]

  • 2关注
  • 47粉丝

已卖:107份资源

博士生

52%

还不是VIP/贵宾

-

威望
0
论坛币
3 个
通用积分
4.4708
学术水平
47 点
热心指数
49 点
信用等级
43 点
经验
5127 点
帖子
201
精华
0
在线时间
306 小时
注册时间
2012-2-21
最后登录
2025-9-22

楼主
sssyunsheng 在职认证  发表于 2015-8-1 11:20:46 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
---
title: "Rwordseg配置"
author: "大音如霜"
date: "2015年8月1日"
output: html_document
---

分词包Rwordseg安装真是幸福的人是相同的,不幸的的人各有各的不幸,这里讲一下Rwordseg的安装
首先你安装java,去oracle官网下载JDK安装包,注意,这里是jdk不是jre,是64位还是32位要和你的R版本相同。
然后你需要安装Rtools,以上安装完成以后需要在R里面操作了。下载地址http://cran.csdb.cn/bin/windows/Rtools/
当然你要选择和你的R匹配的Rtools

安装rJava包

  1. if (!suppressWarnings(require("rJava"))) {
  2.   install.packages("rJava")
  3.   require("rJava")
  4. }
  5. .jinit()
  6. s <- .jnew("java/lang/String", "Hello World!")
  7. s#如果s正常返回"Java-Object{Hello World!}"则rjava已经成功
复制代码

完成以上以后我们需要配置环境了,win7右键我的电脑——高级系统设置——环境变量
在环境变量中分别新建或添加到相应的环境路径
#classpath
第一个classpath,新建classpath添加下面代码

  1. .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;C:\Program Files\R\R-3.2.1\library\rJava\jri
复制代码


第二个JAVA_HOME,新建,然后把下面的内容添加进去

  1. C:\Program Files\Java\jdk1.8.0_45
复制代码


第三个Path,新建path

  1. C:\Rtools\bin;C:\Rtools\gcc-4.6.3\bin;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;C:\Program Files\R\R-3.2.1\bin\i386;C:\Program Files\Java\jdk1.8.0_45\jre\bin\server
复制代码


第四个R_HOME,添加

  1. C:\Program Files\R\R-3.2.1
复制代码


以上所有路径均是你的软件安装路径,其他不需要修改。
#安装Rwordseg

  1. install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")#这一步要完成需要安装Rtools
  2. library(rJava)
  3. library(Rwordseg)
  4. segmentCN("在此对原作者孙健表示强烈的敬意!")
复制代码


如果分词成功就ok了,报错就自求多福吧,更多文本挖掘的有趣故事就关注我们把

关于我们,关注理性与文艺,用数据创作内容性的精致阅读,这里是数据分析挖掘人员与文艺青年的集结地,不做鼓吹,只踏踏实实的做一个又一个数据驱动的文章,并设计机器人减轻数据分析的负担,无论你感兴趣还是想参与都可以关注,请加微信公众号大音如霜
qrcode_for_gh_89f96c48034b_430.jpg


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:words 文本挖掘 word RDS SEG 文本挖掘 Rwordseg rJava

沙发
offandon 发表于 2015-10-21 19:47:30
继续写啊,楼主,让那些文本挖掘的骗子闭嘴

藤椅
风雨兼程12 发表于 2016-3-10 15:14:32
大神,Rwordseg包我已经装上了,而且导入了细胞词库的许多内容,分词效果很不错的,但是我想做一个关于垃圾短信分类的问题,但是现在问题是我不知道如何进行词频统计,如何形成词频向量和形成词频矩阵,求大神赐教!跪谢!!!或者你有一些相关的小案例发给我也行,不胜感激!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 08:54