各位大牛,求指教!问题如下:
在应用tm和rmmseg4j做中文分析
数据源是txt,一共52个文本
我的比较笨的办法是,
1.用txt1 = readLines("1.txt", encoding="gb2312")……重复52遍,把文本读入R,
2.用rmmseg4j对每一个文本分词;
3.用tm的corpus把所有文本拼起来凑成语料库
4.用tm的其他功能分析
我知道tm的corpus是可以用dirsource直接在硬盘里抓出文档来,建立语料库的,这很方便,
但是,mmseg4j好像不能直接对语料库做分词
如 mmseg4j(corpus)或者corpus<-tm_map(corpus,mmseg4j)都会报错
有什么更好的办法吗?
悬赏一周,谢谢指教!


雷达卡








京公网安备 11010802022788号







