result=pat.findall(row)
“\u4e00-\u9fa5”是中文编码范围,只会剩下中文内容,免去了在停用词表中添加一些无意义的标点符号,数字,英文字母等。
附件是“百度停用词列表”,“哈工大停用词表”,“四川大学机器智能实验室停用词库”,“中文停用词库”原始停用词表以及四个整合到一起的停用词表,删除了原有停用词表的标点符号,字母,数字。
楼主: MiSs.RainBowsss
|
6177
4
[数据挖掘] 【python】文本分析时的停用词表以及去除除中文外的所有内容的小技巧 |
初中生 23%
-
|
| ||
京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明 免责及隐私声明