楼主: liangjianfans
1747 3

[实际应用] 我现在有一个数据文件,其中有一列是中文.文件的名字也包含中文字符.这样的文件应该如 [推广有奖]

  • 0关注
  • 0粉丝

硕士生

98%

还不是VIP/贵宾

-

威望
0
论坛币
33 个
通用积分
1.0010
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
430 点
帖子
120
精华
0
在线时间
18 小时
注册时间
2009-8-18
最后登录
2019-9-14

2论坛币
我现在有一个数据文件,其中有一列是中文.文件的名字也包含中文字符.这样的文件应该如何打开,如何读取中文数据.


关键词:数据文件 中文处理
沙发
ryusukekenji 发表于 2013-7-15 22:50:58 |只看作者 |坛友微信交流群
  1. #1加载软件包:
  2. #1.1数据欲处理包:
  3. #Snowball(处理带空格的语句)
  4. #rJava(rmmseg4j的支持包)
  5. #rmmseg4j(处理中文的分词,把不带空格的分为带空格的。)
  6. #1.2文本分析包:
  7. #tm

  8. #数据处理##
  9. library (RODBC)
  10. excel_file <- odbcConnectExcel("D:\\r\\lab\\tm\\data\\处理实例.xls")
  11. sheet_data <- sqlFetch(excel_file,"data")
  12. close (excel_file)

  13. library (Snowball)
  14. library (rJava)
  15. library (rmmseg4j)
  16. library (tm)
  17. tmp <-  as.character(sheet_data[[3]])
  18. pinglun<-tmp[which(tmp!="")]#删除无效数据

  19. #中文特色,空格分词
复制代码

使用道具

藤椅
zzxx53 发表于 2013-7-22 02:01:19 |只看作者 |坛友微信交流群
中文版的r好像处理中文数据比较容易

使用道具

板凳
trier2006 发表于 2013-7-22 07:09:43 |只看作者 |坛友微信交流群
最好改成英文
最好的医生是自己,最好的药物是时间……

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-23 00:42