- 阅读权限
- 255
- 威望
- 0 级
- 论坛币
- 475 个
- 通用积分
- 49.6971
- 学术水平
- 29 点
- 热心指数
- 57 点
- 信用等级
- 22 点
- 经验
- 52528 点
- 帖子
- 622
- 精华
- 0
- 在线时间
- 377 小时
- 注册时间
- 2008-8-11
- 最后登录
- 2014-7-15
|
- #1加载软件包:
- #1.1数据欲处理包:
- #Snowball(处理带空格的语句)
- #rJava(rmmseg4j的支持包)
- #rmmseg4j(处理中文的分词,把不带空格的分为带空格的。)
- #1.2文本分析包:
- #tm
-
- #数据处理##
- library (RODBC)
- excel_file <- odbcConnectExcel("D:\\r\\lab\\tm\\data\\处理实例.xls")
- sheet_data <- sqlFetch(excel_file,"data")
- close (excel_file)
-
- library (Snowball)
- library (rJava)
- library (rmmseg4j)
- library (tm)
- tmp <- as.character(sheet_data[[3]])
- pinglun<-tmp[which(tmp!="")]#删除无效数据
-
- #中文特色,空格分词
复制代码
|
|