1.使用jieba分词后能否去掉重复词,例如说文本是“他买了一个苹果和一个桔子” 但最后保留“他,买了,一个,苹果,和 桔子”
2.在学习批量分词的时候遇到了问题,比如下面批量读取一些文件
- path<-"C:/Users/abc/Documents/work"
- fileName<-dir(path)
- filePath<-sapply(fileName,function(x){
- paste(path, x,sep = '/')
- })
- data<-lapply(filePath, function(x){
- read.csv(x,header = T)
- })
我在work里有100个txt文件,执行上面的代码我把文件都读取到data里,下一步我想jieba分词,应该怎么弄呢?
- cc<-worker()
- cc$bylines = TRUE
- result = segment(data, cc) #这里报错说不是string类型,我用unlist(data)也不行
- co= sapply(result, function(x){
- paste(x,collapse = " ")
- })
分词结果我想保存在list中,并且顺便一个个的输出到制定文件夹里。


雷达卡




京公网安备 11010802022788号







