人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › 深度学习：基于 Gensim 的 Yelp 评论文本分类实例

发帖

楼主: casey_c

2709 1

[程序分享] 深度学习：基于 Gensim 的 Yelp 评论文本分类实例 [推广有奖]

0关注
10粉丝

博士生

92%

还不是VIP/贵宾

威望: 0 级
论坛币: 96 个
通用积分: 2.1003
学术水平: 2 点
热心指数: 15 点
信用等级: 2 点
经验: 11502 点
帖子: 278
精华: 0
在线时间: 94 小时
注册时间: 2016-11-22
最后登录: 2022-5-2

楼主

casey_c 发表于 2017-2-17 10:40:01 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

通过 gensim 将词向量（Word2Vec）学习机运用于文本分类中，参考文献：Document Classification by Inversion of Distributed Language Representations（ACL 2015）。
1、数据准备

首先，我们需要到 kaggle 上的 Yelp recruiting contest 下载我们要用到的数据，可能需要注册并登陆自己的 kaggle 账号。

https://www.kaggle.com/c/yelp-recruiting/download/yelp_training_set.zip
https://www.kaggle.com/c/yelp-recruiting/download/yelp_test_set.zip

接着，解压数据，并从中获取本文需要的有关信息。

在本次分析中，我们将使用一个非常简单的语法解析规则，如下所示：

import re
contractions = re.compile(r"'|-|\"")
# 所有非字符数值
symbols = re.compile(r'(\W+)', re.U)
# 删除单个字符
singles = re.compile(r'(\s\S\s)', re.I|re.U)
# 分隔符（任何空格）
seps = re.compile(r'\s+')
# 文本清洗(注意操作顺序)
def clean(text):
text = text.lower()
text = contractions.sub('', text)
text = symbols.sub(r' \1 ', text)
text = singles.sub(' ', text)
text = seps.sub(' ', text)
return text
# 定义分句函数
alteos = re.compile(r'([!\?])')
def sentences(l):
l = alteos.sub(r' \1 .', l).rstrip("(\.)*\n")
return l.split(".")

复制代码

然后我们需要将上述规则嵌入一个能够产生带星级评论的评论生成器。

from zipfile import ZipFile
import json
def YelpReviews(label):
with ZipFile("yelp_%s_set.zip"%label, 'r') as zf:
with zf.open("yelp_%s_set/yelp_%s_set_review.json"%(label,label)) as f:
for line in f:
rev = json.loads(line)
yield {'y':rev['stars'],\
'x':[clean(s).split() for s in sentences(rev['text'])]}

复制代码

例如：

YelpReviews("test").next()

复制代码

由于文件相对较小，我们可以将其中的所有内容都写入内存列表之中，这将花费一些时间。

revtrain = list(YelpReviews("training"))
print len(revtrain), "training reviews"
## 打乱数据排列顺序
import numpy as np
np.random.shuffle(revtrain)

复制代码

229907 training reviews
最后，我们还需再写一个函数，以便于我们按语料库顺序找到那些拥有确定星级的评论，并获取其中的每一个句子。

def StarSentences(reviews, stars=[1,2,3,4,5]):
for r in reviews:
if r['y'] in stars:
for s in r['x']:
yield s

复制代码

2、词向量（Word2Vec）模型构建
首先，我们需要安装一个现成的 Word2Vec 包。

from gensim.models import Word2Vec
import multiprocessing
## 构建一个 w2v 学习机
basemodel = Word2Vec(
workers=multiprocessing.cpu_count(), # 获得你当前的 CPU 的核数
iter=3) # 该项参数的值越大，模型效果越好，构建时消耗的资源也越多
print basemodel

复制代码

Word2Vec(vocab=0, size=100, alpha=0.025)
通过句子构建词库（我们也可以运用一个外生的无标注词库来对基础模型进行预训练）

basemodel.build_vocab(StarSentences(revtrain))

复制代码

接着，我们对每个基础的模型进行一次 深层复制（deep copy），以此来进行评论星级分类的训练。这一步的计算量比较大……

from copy import deepcopy
starmodels = [deepcopy(basemodel) for i in range(5)]
for i in range(5):
slist = list(StarSentences(revtrain, [i+1]))
print i+1, "stars (", len(slist), ")"
starmodels[i].train( slist, total_examples=len(slist) )

复制代码

以上内容转自数析学院，原文还包括模型反演以及测试集案例，有需要的同学可以直接查看原文

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：参考文献学习机信息账号

[程序分享] 深度学习：基于 Gensim 的 Yelp 评论文本分类实例 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[程序分享] 深度学习：基于 Gensim 的 Yelp 评论文本分类实例 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群