楼主: glxfgsh
2326 9

[问答] 关于中文文本挖掘的一个问题 [推广有奖]

  • 0关注
  • 10粉丝

博士生

11%

还不是VIP/贵宾

-

威望
0
论坛币
1511 个
通用积分
4.6166
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
1089 点
帖子
73
精华
0
在线时间
351 小时
注册时间
2007-5-2
最后登录
2024-4-11

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
各位R语言专家,本人在用Rwordseg和tm包做中文文本挖掘的时候,最后老是带着一些英文或符号,比如“list(V1 = list(content = c“、”meta = list(author = character(0), datetimestamp = list(sec = 25.0801639556885, min = 3, hour = 12, “等等,最后分词出现下面的内容:”蝴蝶梦\n流星 蝴蝶梦\n生态学 蝴蝶梦\n鸳鸯 你\nmeta“

这种情况应该怎么处理啊?
实在是无处查资料,不知道有没有人曾遇到过,希望有人能帮忙指点一下。非常感谢。
如果有人帮忙解决,本人愿以100币作为小小酬谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:文本挖掘 Character datetime Content Author 中文

沙发
李会超 发表于 2015-2-4 10:55:40 |只看作者 |坛友微信交流群
能否把\n用gsub函数替换成空格

使用道具

藤椅
glxfgsh 发表于 2015-2-4 11:45:11 |只看作者 |坛友微信交流群
李会超 发表于 2015-2-4 10:55
能否把\n用gsub函数替换成空格
好像不行,可能在中文文本挖掘中有其它方法吧

使用道具

板凳
glxfgsh 发表于 2015-2-4 11:45:21 |只看作者 |坛友微信交流群
李会超 发表于 2015-2-4 10:55
能否把\n用gsub函数替换成空格
好像不行,可能在中文文本挖掘中有其它方法吧,不过还是谢谢

使用道具

报纸
zw1980 发表于 2015-2-9 11:46:35 |只看作者 |坛友微信交流群
我跟你遇到了同样的问题,R的版本是3.2.1,有高手指点吗?

使用道具

地板
complicated 在职认证  发表于 2015-2-9 11:51:41 |只看作者 |坛友微信交流群
试试
term = segmentCN( txt, returnType = "tm")
楼主能在详细描述一下你的处理过程?

使用道具

7
a524631266 在职认证  发表于 2015-2-9 21:58:37 |只看作者 |坛友微信交流群
其实楼主可以尝试tm包里面的tm_map(data,function)这个,可能需要过滤数据,当然最好还是楼主用gsub等正则替换做数据处理

使用道具

8
glxfgsh 发表于 2015-2-12 21:17:02 |只看作者 |坛友微信交流群
complicated 发表于 2015-2-9 11:51
试试
term = segmentCN( txt, returnType = "tm")
楼主能在详细描述一下你的处理过程?
谢谢,我自己捉摸了一下,可能是输入导入时产生的问题。还是非常感谢你的热心帮助。

使用道具

9
glxfgsh 发表于 2015-2-12 21:17:39 |只看作者 |坛友微信交流群
a524631266 发表于 2015-2-9 21:58
其实楼主可以尝试tm包里面的tm_map(data,function)这个,可能需要过滤数据,当然最好还是楼主用gsub等正则替 ...
应该是输入导入过程中的问题,谢谢帮助。

使用道具

10
main_fly 发表于 2015-5-7 23:12:29 |只看作者 |坛友微信交流群
不知道楼主解决了么?有解决办法么?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-12 19:01