楼主: hayixiao
5029 2

[实际应用] R语言tm包文本分析,建立corpus语料库究竟是怎么回事? [推广有奖]

  • 45关注
  • 1粉丝

讲师

3%

还不是VIP/贵宾

-

威望
0
论坛币
5549 个
通用积分
129.6706
学术水平
3 点
热心指数
13 点
信用等级
2 点
经验
10675 点
帖子
290
精华
0
在线时间
480 小时
注册时间
2013-7-16
最后登录
2024-1-31

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
代码如图
......
bingqi<-lapply(bingqicsr,function(x) unlist(segmentCN(x)))
执行上述语句分词后:
......
[4] "第34期"                                             
   [5] "辛"                                                  
   [6] "克"                                                  
   [7] "莱"                                                  
   [8] "著"                                                  
   [9] "王"                                                  
  [10] "建华"                                                
  [11] "译"                                                  
  [12] "提要"                                                
  [13] "本文"                                                
  [14] "首先"                                                
  [15] "指出"                                                
  [16] "建立"                                                
  [17] "语料库"                                             
  [18] "的"                                                  
  [19] "重要性"                                             
  [20] "接着"                                                
  [21] "谈"                                                  
  [22] "了"                                                  
  [23] "语料库"                                             
  [24] "的"                                                  
  [25] "设计"                                                
  [26] "选材"                                                
  [27] "的"                                                  
  [28] "方法"                                                
  [29] "和"                                                  
  [30] "标"                                                  
  [31] "语料库"                                             
  [32] "建立"                                                
  [33] "的"                                                  
  [34] "框架"                                                
  [35] "和"                                                  
  [36] "规定"                                                
  [37] "语料库"                                             
  [38] "的"                                                  
  [39] "类型"                                                
  [40] "等"                                                  
  [41] "几个"                                                
  [42] "方面"                                                
  [43] "在"                                                  
  [44] "语料库"                                             
  [45] "的"                                                  
  [46] "类型"                                                
  [47] "部分"                                                
  [48] "本文"                                                
  [49] "重点"                                                
  [50] "Creation"                                            
  [51] "Sinclair"                                            
  [52] "译者"                                                
  [53] "Wangjianhua"                                         
  [54] "Thispaperfirstreferstotheimportanceofcreatingcorpora"
  [55] "Thenitpresents"                                      
  [56] "points"
......   
   
# 问题来了,
  #1.这是一个向量库吗?据说只有变成向量后才能继续处理。
  #2.还需要再建立语料库,以便于后续的词云、分类等处理吗?
  #我试建立如下语句                                       
temp<-Corpus(VectorSource(bingqi),readerControl = list(reader = readplain,language = 'cn'))
  
   #系统错误提示:Error in prepareReader(readerControl, reader(x)) : object 'readplain' not found。
   #问题:
   #1. readerControl = list(reader = readplain,language = 'cn') ,readerControl = list(reader = x$DefaultReader,language = 'cn'),readerControl = list(reader = read(x),language = 'cn'),这三种语句有啥区别?
  #换用如下语句:
  temp<-Corpus(VectorSource(bingqi),readerControl = list(reader = reader(VectorSource(bingqi),language = 'cn')))
  inspect(temp)
  ##执行后结果:
   <<SimpleCorpus>>
Metadata:  corpus specific: 1, document level (indexed): 0
Content:  documents: 3

[1] c("语言", "数据", "导入", "DataCampBlog", "编译", "亮", "亮", "语言", "数据", "读入", "的", "核心", "函数", "read", "table", "现在", "我们", "了解", "一下", "其", "他", "可", "scan", "read", "table", "这", "类", "读取", "文本", "文档", "的", "函数", "还", "可以", "用", "scan", "函数", "读入", "不同", "的", "是", "19", "19", "19", "scan", "e", "birth", "txt", "1", "241991211993531962", "data", "nrow", "2", "byrow", "FALSE", "1", "2", "3", "1", "242153", "2", "199119931962", "也",
......

  ##这样的结果可以继续进行下一步的“词云”、“分类”吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Corp 语料库 R语言 cor Bing 语料库

持续发展才是硬道理
沙发
hayixiao 发表于 2017-4-23 10:51:49 |只看作者 |坛友微信交流群
R语言版本为:R version 3.3.3 (Another Canoe)

使用道具

藤椅
hechuxiangguan 发表于 2017-5-15 19:43:41 |只看作者 |坛友微信交流群
楼主解决没有?最近也在苦恼这个问题。关键没办法把一个个文档读取成变量来建立语料库。楼主解决了的话赐教下哈~

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 02:23