以下内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文
学习完本节课程,你将学会如何将任意中文文本生成词云。
工具库与语料准备
首先,我们需要导入所需的工具库,并对jupyter notebook进行简单的设置:
- # coding: utf-8
- %matplotlib inline
- import pandas as pd
- import numpy as np
- import jieba
- from collections import Counter
- from wordcloud import WordCloud, ImageColorGenerator
- import matplotlib.pyplot as plt
- df = pd.read_pickle('douban_movie_reviews_subject_25837262.dataframe.pickle')
- len(df)
我们的原始语料集数据如下所示:
- df.head()
上面的数据集包含了《至爱梵高》影评的诸多信息,下面我们将以影评内容( content 列)为分词与词云绘制的重点对象。
中文分词在知道了语料集的基本情况之后,运用 jieba 库中的相关工具,我们先来建立一个最简单的中文分词函数:
- #最简单的一个分词函数
- def seg(text):
- result=[]
- for i in jieba.cut(text):
- result.append(i)
- return result
- #你可以通过这个方法添加自定义的分词词库
- def add_word(list):
- for items in list:
- jieba.add_word(items)
- my_words_list = ['数析学院']
- add_word(my_words_list)
用一个简单的句子试一下这个函数的效果:
- for i in seg('数析学院很适合初学者入门,课程资源也挺丰富的,坚持下去应该收获不小。'):
- print i
以上内容转自 数析学院,如需完整内容可以直接查看原文


雷达卡




京公网安备 11010802022788号







