发帖

楼主: hayixiao

5617 2

[实际应用] R语言tm包文本分析，建立corpus语料库究竟是怎么回事？ [推广有奖]

45关注
1粉丝

已卖：202份资源

讲师

5%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 5518 个
通用积分: 127.4041
学术水平: 3 点
热心指数: 13 点
信用等级: 2 点
经验: 10775 点
帖子: 290
精华: 0
在线时间: 493 小时
注册时间: 2013-7-16
最后登录: 2025-9-12

楼主

hayixiao 发表于 2017-4-23 10:42:33 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

代码如图
......
bingqi<-lapply(bingqicsr,function(x) unlist(segmentCN(x)))
执行上述语句分词后：
......
[4] "第34期"
[5] "辛"
[6] "克"
[7] "莱"
[8] "著"
[9] "王"
  [10] "建华"
  [11] "译"
  [12] "提要"
  [13] "本文"
  [14] "首先"
  [15] "指出"
  [16] "建立"
  [17] "语料库"
  [18] "的"
  [19] "重要性"
  [20] "接着"
  [21] "谈"
  [22] "了"
  [23] "语料库"
  [24] "的"
  [25] "设计"
  [26] "选材"
  [27] "的"
  [28] "方法"
  [29] "和"
  [30] "标"
  [31] "语料库"
  [32] "建立"
  [33] "的"
  [34] "框架"
  [35] "和"
  [36] "规定"
  [37] "语料库"
  [38] "的"
  [39] "类型"
  [40] "等"
  [41] "几个"
  [42] "方面"
  [43] "在"
  [44] "语料库"
  [45] "的"
  [46] "类型"
  [47] "部分"
  [48] "本文"
  [49] "重点"
  [50] "Creation"
  [51] "Sinclair"
  [52] "译者"
  [53] "Wangjianhua"
  [54] "Thispaperfirstreferstotheimportanceofcreatingcorpora"
  [55] "Thenitpresents"
  [56] "points"
......

# 问题来了，
  #1.这是一个向量库吗？据说只有变成向量后才能继续处理。
  #2.还需要再建立语料库，以便于后续的词云、分类等处理吗？
  #我试建立如下语句
temp<-Corpus(VectorSource(bingqi),readerControl = list(reader = readplain,language = 'cn'))

#系统错误提示：Error in prepareReader(readerControl, reader(x)) : object 'readplain' not found。
#问题：
#1. readerControl = list(reader = readplain,language = 'cn') ,readerControl = list(reader = x$DefaultReader,language = 'cn'),readerControl = list(reader = read(x),language = 'cn'),这三种语句有啥区别？
  #换用如下语句：
  temp<-Corpus(VectorSource(bingqi),readerControl = list(reader = reader(VectorSource(bingqi),language = 'cn')))
  inspect(temp)
  ##执行后结果：
<<SimpleCorpus>>
Metadata:  corpus specific: 1, document level (indexed): 0
Content:  documents: 3

[1] c("语言", "数据", "导入", "DataCampBlog", "编译", "亮", "亮", "语言", "数据", "读入", "的", "核心", "函数", "read", "table", "现在", "我们", "了解", "一下", "其", "他", "可", "scan", "read", "table", "这", "类", "读取", "文本", "文档", "的", "函数", "还", "可以", "用", "scan", "函数", "读入", "不同", "的", "是", "19", "19", "19", "scan", "e", "birth", "txt", "1", "241991211993531962", "data", "nrow", "2", "byrow", "FALSE", "1", "2", "3", "1", "242153", "2", "199119931962", "也",
......

  ##这样的结果可以继续进行下一步的“词云”、“分类”吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Corp 语料库 R语言 cor Bing 语料库

[实际应用] R语言tm包文本分析，建立corpus语料库究竟是怎么回事？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[实际应用] R语言tm包文本分析，建立corpus语料库究竟是怎么回事？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群