请选择 进入手机版 | 继续访问电脑版
楼主: liyanran9803
843 1

[程序分享] python [推广有奖]

  • 0关注
  • 0粉丝

小学生

14%

还不是VIP/贵宾

-

威望
0
论坛币
9 个
通用积分
0.0695
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
90 点
帖子
2
精华
0
在线时间
4 小时
注册时间
2021-6-23
最后登录
2021-11-14

liyanran9803 发表于 2021-6-23 16:38:40 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Python:jieba分词
中文在词与词之间没有任何空格之类的显示标志指示词的边界。因此,中文分词是很多自然语言处理系统中的基础模块和首要环节。


jieba分词会用到:
1. 基于N-gram语言模型的分词方法
base:贝叶斯定理
简单的,可以根据DAG枚举全路径,暴力求解最优路径;也可以使用动态规划的方法求解,jieba中不带HMM新词发现的分词,就是DAG + Uni-gram的语言模型 + 后向DP的方式进行的。


2. 基于HMM的分词方法
base:生成模型
由字构词
HMM模型中的五元组表示: - 观测序列 - 隐藏状态序列 - 状态初始概率 - 状态转移概率 - 状态发射概率
分词时,主要利用HMM解决预测问题,也称为解码问题:已知模型状态初始概率,状态转移概率和状态发射概率和观测序列X,求最大概率的隐藏序列Y。


jieba分词流程
jieba的分词过程可以概括为以下几个步骤
    - 依据统计词典(模型中这部分已经具备,也可自定义加载)构建统计词典中词的前缀词典。
    - 对输入的内容按照子句进行分割(使用正则表达式,以标点符号或者非中文字符为分界)。
    - 依据前缀词典对输入的句子进行DAG(有向无环图)的构造。
    - 使用动态规划的方法在DAG上找到一条概率最大路径,依据此路径进行分词。
    - 对于未收录词(是指不在统计词典中出现的词,未收录词怎么识别可以看完第三部分之后思考一下),使用HMM(隐马尔克夫模型)模型,用Viterbi(维特比)算法找出最可能出现的隐状态序列。

jieba分词特点

支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

  • 支持自定义词典
  • 支持繁体分词
  • MIT 授权协议

jieba主要功能


1. 分词
捕获.PNG

(非paddle模式)


2. 自定义词典
  • 开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率
  • 用法: jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径
  • 词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
  • 词频省略时使用自动计算的能保证分出该词的词频。




基于 TF-IDF 算法的关键词抽取

import jieba.analyse

  • jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
    • sentence 为待提取的文本
    • topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
    • withWeight 为是否一并返回关键词权重值,默认值为 False
    • allowPOS 仅包括指定词性的词,默认值为空,即不筛选
  • jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件

捕获1.PNG



关键词一并返回关键词权重值示例
捕获2.PNG




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python Sentence analyse extract Analys NLP

hifinecon 发表于 2021-6-27 13:30:26 |显示全部楼层 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-16 15:02