楼主: 朽木七根
23932 40

[问答] 请问R如何自定词典进行分词 [推广有奖]

11
jiangbeilu 学生认证  发表于 2015-10-29 21:50:39
松子茶hc 发表于 2015-10-29 10:23
我也遇到了和楼上同样的问题,自己装在的txt词典没有对分词起到作用,而且是已经安装成功了,请问是什么原因 ...
我知道是什么原因了,是因为在windows下,你用txt文件,默认的是ansi格式的数据。

你只需要把编码变成utf-8 无bom的,再安装就行,可以顺利进行自定义分词的。

12
松子茶hc 发表于 2015-10-30 15:39:34
jiangbeilu 发表于 2015-10-29 21:50
我知道是什么原因了,是因为在windows下,你用txt文件,默认的是ansi格式的数据。

你只需要把编码变成 .
我猜可能也是这个问题,但是具体不知道该怎么做..能否帮我看一下呢?请问该怎么转换呢?谢谢啦~

13
jiangbeilu 学生认证  发表于 2015-10-30 15:56:05
转换文字编码,去notepad里查看,然后很容易就转换过来了。就是这样子,至于 你的其它问题,不是我看你的代码能解决的啦。

14
松子茶hc 发表于 2015-10-31 07:31:02
哦哦,好的,你的意思是直接在txt文本里转换编码是吧!我试试,非常感谢!!!

15
松子茶hc 发表于 2015-11-3 16:17:58
jiangbeilu 发表于 2015-10-30 15:56
转换文字编码,去notepad里查看,然后很容易就转换过来了。就是这样子,至于 你的其它问题,不是我看你的代 ...
果然是编码的问题,已经按照你的方法解决啦~~谢谢!另外请问一下,在分词的时候安装了停用词库,想将停用词删除,但是实际结果停用词并没有删除,请问你遇到这个问题吗?

16
jiangbeilu 学生认证  发表于 2015-11-3 16:46:17
松子茶hc 发表于 2015-11-3 16:17
果然是编码的问题,已经按照你的方法解决啦~~谢谢!另外请问一下,在分词的时候安装了停用词库,想将停用 ...
不明白你说的停用词是怎么个概念,这方面我用得比较少

17
松子茶hc 发表于 2015-11-3 17:06:37
jiangbeilu 发表于 2015-11-3 16:46
不明白你说的停用词是怎么个概念,这方面我用得比较少
停用词就是一些没有用但是文本中出现还比较多的词,比如“有的,啊,一些”等等,这样的停用词我想删除,免得影响分词。不知道你接触过吗?

18
jiangbeilu 学生认证  发表于 2015-11-3 17:11:13
松子茶hc 发表于 2015-11-3 17:06
停用词就是一些没有用但是文本中出现还比较多的词,比如“有的,啊,一些”等等,这样的停用词我想删除, ...
这些是虚词,你可以在分词之后再剔除吧。还有你可以对文本进行预处理,把这些词删除替换成空字符就行啊。

19
松子茶hc 发表于 2015-11-3 17:13:28
jiangbeilu 发表于 2015-11-3 17:11
这些是虚词,你可以在分词之后再剔除吧。还有你可以对文本进行预处理,把这些词删除替换成空字符就行啊。
ok,明白啦~~thank you

20
yangming98 发表于 2015-11-3 22:42:02 来自手机
朽木七根 发表于 2014-3-28 00:44
我有这样一列的数据,R语言中Rwordseg包分不出来,我如何自定词库(淘宝,....)对这列文本进行规范,哪位大 ...
好的?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-25 03:49