楼主: 1794549457
927 1

R语言中文分词如何只提取自定义字典存在的词组 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

50%

还不是VIP/贵宾

-

威望
0
论坛币
1210 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
40 点
帖子
1
精华
0
在线时间
12 小时
注册时间
2018-5-7
最后登录
2021-1-13

楼主
1794549457 发表于 2019-12-25 17:43:34 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我先自己制定了一个分词的词典,然后对需要分词的字段按词典存在的词组进行分词提取,字典不存在的忽略不分词不提取。

例如,我的词典为:(“计算机”,“软件工程”,“中外合作”,“电气类”)
需要分词的字段为: 计算机类(计算机科学与技术、软件工程)(学费:4500元/年)

我想要的分词提取结果为:计算机、软件工程


我知道可以设置停用词过滤不要的,但是我想分词只提取我想要的。因为不要的很杂没办法全部过滤,但是我知道我要的是什么。


请问R语言可以实现吗?如何操作?急求大神赐教
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:中文分词 自定义 存在的 R语言 计算机科学与技术

沙发
zhanghan1993 发表于 2020-1-20 13:56:03
wk <- worker(user = "E:/R-3.6.1/library/jiebaRD/dict/dict.txt",
             stop_word = "E:/R-3.6.1/library/jiebaRD/dict/stop.txt")
user 是设置的分词

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 12:40