1. patent<-readLines('C:/Users/zhangweiwei/Desktop/patentname_abstract_ipc.txt',encoding='UFT-8')
2. patentname_abstract1<-Corpus(VectorSource(patentname_abstract))
3. patentname_abstract2.2<-sapply(patentname_abstract1, extractNoun, USE.NAMES=F)
4. patentname_abstrapatentct3 <- sapply(patentname_abstract2, function(x) {Filter(function(y) {nchar(y) <= 4 && nchar(y) >=2 && is.hangul(y)},x)} )
5. patentname_abstract4<- Corpus(VectorSource(patentname_abstract3))
6.tdm <- DocumentTermMatrix(patentname_abstract4)
到第5步位置,所有的词都还在,使用DocumentTermMatrix函数之后,很多词都见了,有没有高手指点一下啊


雷达卡




京公网安备 11010802022788号







