楼主: ャ宇Forever
5766 5

[问答] 【Rwordseg】包中对文件进行分词的请教 [推广有奖]

  • 0关注
  • 0粉丝

高中生

45%

还不是VIP/贵宾

-

威望
0
论坛币
2520 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
150 点
帖子
12
精华
0
在线时间
45 小时
注册时间
2012-11-26
最后登录
2015-12-22

楼主
ャ宇Forever 发表于 2014-1-18 13:04:49 |AI写论文
100论坛币
在Rwordseg中对于TXT文件分词的描述如下:

直接在函数中填入文件地址,运行后会在相同文件夹输出分词后的文件
输入:
1 > segmentCN("说岳全传_GBK.txt")
输出:
1 Output file: D:\说岳全传_GBK.segment.txt
2 [1] TRUE


但我自己使用的时候,结果是这样的:

> segmentCN("C:\\users\\Leon\\Documents\\test.txt")
[1] "c"         "users"     "leon"      "documents" "test"      "txt"


是把文件的地址给分词了,而不是文件的内容,求解决办法。

此外,如果不是对文件分词,而是对字符分词的话,使用returnType输出tm格式,发现无法使用,情况如下:

> segtest<- segmentCN(test, returntype="tm")
Error in segmentCN(test, returntype = "tm") :
  unused argument (returntype = "tm")


请问这个问题如何解决?


关键词:words word SEG RDS segmentCN rwordseg 中文分词 R包 文件分词

沙发
yuanhangzhe 发表于 2014-10-28 16:34:20
是returnType不是returntype;可以把C:\\users\\Leon\\Documents\\设置为工作目录就可以啦

藤椅
李会超 发表于 2014-11-24 17:02:10
应该是把文本先读入内存吧……

板凳
用户名是啥 发表于 2015-5-6 17:06:40
同问 解决了吗楼主??

报纸
用户名是啥 发表于 2015-5-6 17:14:53
楼主 你那个test是不是是一个文件夹? 这个后面必须加详细的txt文件名

地板
lisong-1227 学生认证  发表于 2015-5-7 11:17:43

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 01:25