楼主: MiSs.RainBowsss
6177 4

[数据挖掘] 【python】文本分析时的停用词表以及去除除中文外的所有内容的小技巧 [推广有奖]

  • 0关注
  • 0粉丝

初中生

23%

还不是VIP/贵宾

-

威望
0
论坛币
128 个
通用积分
8.3806
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
153 点
帖子
2
精华
0
在线时间
24 小时
注册时间
2019-2-26
最后登录
2020-1-19

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
pat=re.compile(r'[\u4e00-\u9fa5]+')      
result=pat.findall(row)
“\u4e00-\u9fa5”是中文编码范围,只会剩下中文内容,免去了在停用词表中添加一些无意义的标点符号,数字,英文字母等。
附件是“百度停用词列表”,“哈工大停用词表”,“四川大学机器智能实验室停用词库”,“中文停用词库”原始停用词表以及四个整合到一起的停用词表,删除了原有停用词表的标点符号,字母,数字。
中文停用词库.txt (4.05 KB) 四川大学机器智能实验室停用词库.txt (6.21 KB) 哈工大停用词表.txt (4.48 KB) 百度停用词列表.txt (9.11 KB) stopwords.txt (12.13 KB, 需要: 1 个论坛币)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
hanson.don 发表于 2020-2-19 08:21:25 |只看作者 |坛友微信交流群
楼主,好人榜排第一!

使用道具

藤椅
kawen111 发表于 2020-3-4 17:31:21 |只看作者 |坛友微信交流群
xiexieshouzhu

使用道具

板凳
dbyluck 发表于 2020-10-13 14:17:48 来自手机 |只看作者 |坛友微信交流群
MiSs.RainBowsss 发表于 2019-8-16 11:10
pat=re.compile(r'[\u4e00-\u9fa5]+')      
result=pat.findall(row)
“\u4e00-\u9fa5”是中文编码范围, ...
为什么最后一个包烟删除标点符号呢?

使用道具

报纸
dbyluck 发表于 2020-10-13 14:18:41 来自手机 |只看作者 |坛友微信交流群
dbyluck 发表于 2020-10-13 14:17
为什么最后一个包烟删除标点符号呢?
最后一个停用词包为啥不需要包含标点符号呢?谢谢

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 06:14