楼主: glxfgsh
2706 9

[问答] 关于中文文本挖掘的一个问题 [推广有奖]

  • 0关注
  • 10粉丝

已卖:82份资源

博士生

11%

还不是VIP/贵宾

-

威望
0
论坛币
1501 个
通用积分
4.1666
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
1086 点
帖子
72
精华
0
在线时间
353 小时
注册时间
2007-5-2
最后登录
2025-12-2

楼主
glxfgsh 发表于 2015-2-3 22:37:51 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
各位R语言专家,本人在用Rwordseg和tm包做中文文本挖掘的时候,最后老是带着一些英文或符号,比如“list(V1 = list(content = c“、”meta = list(author = character(0), datetimestamp = list(sec = 25.0801639556885, min = 3, hour = 12, “等等,最后分词出现下面的内容:”蝴蝶梦\n流星 蝴蝶梦\n生态学 蝴蝶梦\n鸳鸯 你\nmeta“

这种情况应该怎么处理啊?
实在是无处查资料,不知道有没有人曾遇到过,希望有人能帮忙指点一下。非常感谢。
如果有人帮忙解决,本人愿以100币作为小小酬谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:文本挖掘 Character datetime Content Author 中文

沙发
李会超 发表于 2015-2-4 10:55:40
能否把\n用gsub函数替换成空格

藤椅
glxfgsh 发表于 2015-2-4 11:45:11
李会超 发表于 2015-2-4 10:55
能否把\n用gsub函数替换成空格
好像不行,可能在中文文本挖掘中有其它方法吧

板凳
glxfgsh 发表于 2015-2-4 11:45:21
李会超 发表于 2015-2-4 10:55
能否把\n用gsub函数替换成空格
好像不行,可能在中文文本挖掘中有其它方法吧,不过还是谢谢

报纸
zw1980 发表于 2015-2-9 11:46:35
我跟你遇到了同样的问题,R的版本是3.2.1,有高手指点吗?

地板
complicated 在职认证  发表于 2015-2-9 11:51:41
试试
term = segmentCN( txt, returnType = "tm")
楼主能在详细描述一下你的处理过程?

7
a524631266 在职认证  发表于 2015-2-9 21:58:37
其实楼主可以尝试tm包里面的tm_map(data,function)这个,可能需要过滤数据,当然最好还是楼主用gsub等正则替换做数据处理

8
glxfgsh 发表于 2015-2-12 21:17:02
complicated 发表于 2015-2-9 11:51
试试
term = segmentCN( txt, returnType = "tm")
楼主能在详细描述一下你的处理过程?
谢谢,我自己捉摸了一下,可能是输入导入时产生的问题。还是非常感谢你的热心帮助。

9
glxfgsh 发表于 2015-2-12 21:17:39
a524631266 发表于 2015-2-9 21:58
其实楼主可以尝试tm包里面的tm_map(data,function)这个,可能需要过滤数据,当然最好还是楼主用gsub等正则替 ...
应该是输入导入过程中的问题,谢谢帮助。

10
main_fly 发表于 2015-5-7 23:12:29
不知道楼主解决了么?有解决办法么?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-26 12:28