楼主: ColorCC.1
1405 0

[问答] 有关R分词的几个问题 [推广有奖]

  • 0关注
  • 0粉丝

小学生

42%

还不是VIP/贵宾

-

威望
0
论坛币
14 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
100 点
帖子
2
精华
0
在线时间
8 小时
注册时间
2016-12-26
最后登录
2017-10-30

楼主
ColorCC.1 学生认证  发表于 2017-10-14 16:33:17 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
各位前辈好,最近刚刚开始学习R,基础不是特别好,在分词的时候有一些疑问,在论坛上搜索了一些帖子后还没能解决我的问题。希望各位前辈能多多指教。

1.使用jieba分词后能否去掉重复词,例如说文本是“他买了一个苹果和一个桔子” 但最后保留“他,买了,一个,苹果,和 桔子”

2.在学习批量分词的时候遇到了问题,比如下面批量读取一些文件
  1. path<-"C:/Users/abc/Documents/work"
  2. fileName<-dir(path)
  3. filePath<-sapply(fileName,function(x){
  4. paste(path, x,sep = '/')
  5. })
  6. data<-lapply(filePath, function(x){
  7. read.csv(x,header = T)
  8. })
复制代码

我在work里有100个txt文件,执行上面的代码我把文件都读取到data里,下一步我想jieba分词,应该怎么弄呢?
  1. cc<-worker()
  2. cc$bylines = TRUE
  3. result = segment(data, cc) #这里报错说不是string类型,我用unlist(data)也不行
  4. co= sapply(result, function(x){
  5. paste(x,collapse = " ")
  6. })
复制代码

分词结果我想保存在list中,并且顺便一个个的输出到制定文件夹里。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:我的问题 path JIE Pat 分词 批量处理文本

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-25 07:26