楼主: casey_c
2176 4

[程序分享] 三分钟学会 Python 中文分词与词云绘制——以豆瓣《至爱梵高》影评为例 [推广有奖]

  • 0关注
  • 10粉丝

博士生

92%

还不是VIP/贵宾

-

威望
0
论坛币
96 个
通用积分
2.1003
学术水平
2 点
热心指数
15 点
信用等级
2 点
经验
11502 点
帖子
278
精华
0
在线时间
94 小时
注册时间
2016-11-22
最后登录
2022-5-2

楼主
casey_c 发表于 2018-2-2 11:04:47 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币



以下内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文


学习完本节课程,你将学会如何将任意中文文本生成词云。


工具库与语料准备


首先,我们需要导入所需的工具库,并对jupyter notebook进行简单的设置:



  1. # coding: utf-8
  2. %matplotlib inline

  3. import pandas as pd
  4. import numpy as np
  5. import jieba

  6. from collections import Counter
  7. from wordcloud import WordCloud, ImageColorGenerator

  8. import matplotlib.pyplot as plt
复制代码
接着,导入我们所用的语料集——1141条来自豆瓣网的《至爱梵高》影评
  1. df = pd.read_pickle('douban_movie_reviews_subject_25837262.dataframe.pickle')
复制代码
  1. len(df)
复制代码
1141
我们的原始语料集数据如下所示:
  1. df.head()
复制代码
QQ截图20180202110055.jpg
上面的数据集包含了《至爱梵高》影评的诸多信息,下面我们将以影评内容( content 列)为分词与词云绘制的重点对象。
中文分词在知道了语料集的基本情况之后,运用 jieba 库中的相关工具,我们先来建立一个最简单的中文分词函数:
  1. #最简单的一个分词函数

  2. def seg(text):
  3.     result=[]
  4.     for i in jieba.cut(text):
  5.         result.append(i)
  6.     return result
复制代码
  1. #你可以通过这个方法添加自定义的分词词库
  2. def add_word(list):
  3.     for items in list:
  4.         jieba.add_word(items)

  5. my_words_list = ['数析学院']
  6. add_word(my_words_list)
复制代码
Building prefix dict from the default dictionary ...Loading model from cache /tmp/jieba.cacheLoading model cost 0.473 seconds.Prefix dict has been built succesfully.
用一个简单的句子试一下这个函数的效果:
  1. for i in seg('数析学院很适合初学者入门,课程资源也挺丰富的,坚持下去应该收获不小。'):
  2.     print i
复制代码
数析学院很适合初学者入门,课程资源也挺丰富的,坚持下去应该收获不小。
以上内容转自 数析学院,如需完整内容可以直接查看原文
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 中文分词 collections Matplotlib Dictionary

已有 1 人评分经验 收起 理由
残阳_等待 + 60 精彩帖子

总评分: 经验 + 60   查看全部评分

沙发
rzxw03 发表于 2018-2-2 11:06:14
66666666

藤椅
line_us 发表于 2018-2-2 14:23:14
支持分享

板凳
luling2010 发表于 2018-2-7 13:44:10
感谢楼主分享

报纸
shiningwt 发表于 2018-2-10 00:15:55
感谢分享!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 21:44