苹果/安卓/wp
初中生
松子茶hc 发表于 2015-11-3 16:17 果然是编码的问题,已经按照你的方法解决啦~~谢谢!另外请问一下,在分词的时候安装了停用词库,想将停用 ...
举报
jiangbeilu 发表于 2015-10-29 21:50 我知道是什么原因了,是因为在windows下,你用txt文件,默认的是ansi格式的数据。 你只需要把编码变成 ...
学科带头人
yk数据挖掘 发表于 2015-11-17 17:21 你好,请问一下,用R做分词的时候,自定义词典加载成功了,但是分词的时候,自定义词典只有一部分生效,是 ...
jiangbeilu 发表于 2015-11-17 17:33 可能是这样的情况:比如你定义了“2012”,但“2012年”是系统里的词,这样你还是会分出2012,2012年这两种 ...
总评分: 经验 + 20 学术水平 + 1 查看全部评分
yk数据挖掘 发表于 2015-11-18 09:59 而且自定义词典里,有一部分的航班类型的生效了,有一部分没生效,所以我感觉没生效的那一部分是跟Rwords ...
大专生
yk数据挖掘 发表于 2015-11-18 09:51 恩,按你的这种说法,他能分出来”2012“和”2012年“这两种是吗,可是我的是,比如我添加了sc到航班的词 ...
jiangbeilu 发表于 2015-11-18 11:12 这个应该是本身有的,你需要移除词库里的词,然后添加自己的。 另外分词还有最大和最小分法,对sc1234 ...
松子茶hc 发表于 2015-11-18 11:28 我看有说要先删除名字的词典,不知道有没有关系,我的分的也不是很准确,我加载的停用词库都没有被删除
yk数据挖掘 发表于 2015-11-18 14:49 删除名字的词典?是它对这个分词结果照成了影响是吗?另外你加载停用词库是加载哪里呢?跟自定义词库一样吗 ...
发表回复 回帖后跳转到最后一页
初级热心勋章
中级热心勋章
初级信用勋章
初级学术勋章
中级信用勋章
高级热心勋章
京ICP备16021002号-2 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明 免责及隐私声明