签到
- 苹果/安卓/wp
- 苹果/安卓/wp
客户端
0.0

0.00

人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析师（CDA）专版 › 【python】文本分析时的停用词表以及去除除中文外的所有 ...

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

提升主题| 本版置顶| 关闭主题| 变更主题颜色| 抢沙发| 顶贴| 显身卡| 道具中心

楼主: MiSs.RainBowsss

6177 4

[数据挖掘] 【python】文本分析时的停用词表以及去除除中文外的所有内容的小技巧 [推广有奖]

0关注
0粉丝

初中生

23%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 128 个
通用积分: 8.3806
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 153 点
帖子: 2
精华: 0
在线时间: 24 小时
注册时间: 2019-2-26
最后登录: 2020-1-19

楼主

MiSs.RainBowsss

在职认证

发表于 2019-8-16 11:10:28 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

pat=re.compile(r'[\u4e00-\u9fa5]+')
result=pat.findall(row)
“\u4e00-\u9fa5”是中文编码范围，只会剩下中文内容，免去了在停用词表中添加一些无意义的标点符号，数字，英文字母等。
附件是“百度停用词列表”，“哈工大停用词表”，“四川大学机器智能实验室停用词库”，“中文停用词库”原始停用词表以及四个整合到一起的停用词表，删除了原有停用词表的标点符号，字母，数字。

中文停用词库.txt (4.05 KB)

四川大学机器智能实验室停用词库.txt (6.21 KB)

哈工大停用词表.txt (4.48 KB)

百度停用词列表.txt (9.11 KB)

stopwords.txt (12.13 KB, 需要: 1 个论坛币)

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏10 回帖

相关帖子

• CDA数据分析师认证考试

回复

使用道具举报

沙发

hanson.don 发表于 2020-2-19 08:21:25 |只看作者 |坛友微信交流群

楼主，好人榜排第一！

回复

使用道具举报

藤椅

kawen111 发表于 2020-3-4 17:31:21 |只看作者 |坛友微信交流群

xiexieshouzhu

回复

使用道具举报

板凳

dbyluck 发表于 2020-10-13 14:17:48 来自手机 |只看作者 |坛友微信交流群

MiSs.RainBowsss 发表于 2019-8-16 11:10
pat=re.compile(r'[\u4e00-\u9fa5]+')
result=pat.findall(row)
“\u4e00-\u9fa5”是中文编码范围， ...

为什么最后一个包烟删除标点符号呢？

回复

使用道具举报

报纸

dbyluck 发表于 2020-10-13 14:18:41 来自手机 |只看作者 |坛友微信交流群

dbyluck 发表于 2020-10-13 14:17
为什么最后一个包烟删除标点符号呢？

最后一个停用词包为啥不需要包含标点符号呢？谢谢

回复

使用道具举报

发帖

本版微信群

加好友,备注cda
拉您进交流群

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明