楼主: complicated
8315 17

[问答] 关于中文文本挖掘的问题 [推广有奖]

  • 3关注
  • 18粉丝

已卖:10份资源

副教授

65%

还不是VIP/贵宾

-

威望
0
论坛币
6463 个
通用积分
3868.8149
学术水平
88 点
热心指数
86 点
信用等级
58 点
经验
21958 点
帖子
506
精华
0
在线时间
1425 小时
注册时间
2007-6-16
最后登录
2024-4-20

楼主
complicated 在职认证  发表于 2013-2-5 12:43:57 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
各位大牛,求指教!问题如下:

在应用tm和rmmseg4j做中文分析
数据源是txt,一共52个文本

我的比较笨的办法是,
1.用txt1 = readLines("1.txt", encoding="gb2312")……重复52遍,把文本读入R,
2.用rmmseg4j对每一个文本分词;
3.用tm的corpus把所有文本拼起来凑成语料库
4.用tm的其他功能分析


我知道tm的corpus是可以用dirsource直接在硬盘里抓出文档来,建立语料库的,这很方便,
但是,mmseg4j好像不能直接对语料库做分词
如 mmseg4j(corpus)或者corpus<-tm_map(corpus,mmseg4j)都会报错
有什么更好的办法吗?
悬赏一周,谢谢指教!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:文本挖掘 Source Coding Lines Corp 挖掘 中文

回帖推荐

complicated 发表于5楼  查看完整内容

还是自己搞定的。。。把论坛币悬赏给自己好了 #数据导入 title = list.files(pattern = '*.txt');#获取指定文件夹下全部txt的文件标题 data = lapply(title, readLines)#读取内容,生成一个list data
密码被盗??

沙发
antili 发表于 2013-2-8 12:38:27
用java分词,写一个接口运用python做文本分类吧

藤椅
complicated 在职认证  发表于 2013-2-8 21:32:55
antili 发表于 2013-2-8 12:38
用java分词,写一个接口运用python做文本分类吧
谢谢,但是那样的话跟R还有多少关系咧。。。
密码被盗??

板凳
trier2006 发表于 2013-2-8 22:34:57
帮顶
最好的医生是自己,最好的药物是时间……

报纸
complicated 在职认证  发表于 2013-2-21 20:44:05
还是自己搞定的。。。把论坛币悬赏给自己好了

#数据导入
title = list.files(pattern = '*.txt');#获取指定文件夹下全部txt的文件标题
data = lapply(title, readLines)#读取内容,生成一个list
data<-gsub("\n","",data,fixed=TRUE)#干掉文本里的回车!否则每个回车就会被识别成一段文本
txt=lapply(data,mmseg4j)
cvs = Corpus(VectorSource(txt))#建成语料库
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
海的方向 + 1 + 1 + 1 观点有启发

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

密码被盗??

地板
jswu167 企业认证  发表于 2013-2-24 23:11:02
dingding

7
夏夜风暖 发表于 2013-3-4 17:59:19
mark一下

8
xiaoxiaoyudian 发表于 2014-1-15 11:54:13
研究研究

9
海的方向 发表于 2014-1-15 13:45:37
  顶一下~帅~
投我以木瓜,报之以琼琚,匪报也,永以为好也.天之道,以有余而补不足。

10
海的方向 发表于 2014-1-16 15:38:05
用这个胡乱试了一个text,最后一步显示:cvs=Corpus(VectorSource(txt))
错误: 不是所有的is.Source(s)都是TRUE
此外: 警告信息:
In is.Source(s) : vectorized sources must have a positive length entry
出了啥问题?
投我以木瓜,报之以琼琚,匪报也,永以为好也.天之道,以有余而补不足。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-8 23:43