楼主: 独岛
823 0

[程序分享] 文本分析|中文分词、英文分词和关键词提取 [推广有奖]

  • 0关注
  • 0粉丝

高中生

90%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
24.6808
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
240 点
帖子
13
精华
0
在线时间
39 小时
注册时间
2020-6-1
最后登录
2025-4-20

楼主
独岛 发表于 2022-9-29 20:07:39 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
复制链接到浏览器可看【文本分析|中文分词、英文分词和关键词提取】 https://www.bilibili.com/video/BV1H34y1Y7V2?share_source=copy_web&vd_source=54787bdb921bee49fe9f51723dc971cc

jieba中文分词库,《Hamlet》文本词频统计,《三国演义》人物出场次数,TFIDF关键词抽取



- 精确模式,试图将句子最精确地切开,不存在冗余单词,适合文本分析;
>`jieba.lcut(str,cut_all,HMM)`精确模式,默认,返回分词结果**list**  
>`jieba.cut(str,cut_all,HMM)`精确模式,返回分词结果**generator**,for循环获得分词后的每个词  
>>- str:要进行分词的字符串对象;  
>>- cut_all:True表示采用全模式分词,False表示采用精确模式分词,默认值为False;  
>>- HMM:True表示采用HMM模型,False则不采用,默认值为True。  


- 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义,有冗余;

`jieba.lcut(str,cut_allTrue)`,全模式  
`jieba.cut(str,cut_all=True)`

- 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词,存在冗余

`jieba.lcut_for_search(str)`搜索引擎模式
`jieba.cut_for_search(str)`

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:中文分词 关键词 bilibili Source share

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-2-1 04:02