签到
- 苹果/安卓/wp
- 苹果/安卓/wp
客户端
0.0

0.00

人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › Python分析新浪微博各种表情使用频率

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

提升主题| 本版置顶| 关闭主题| 变更主题颜色| 抢沙发| 顶贴| 显身卡| 道具中心

楼主: littlelianglian

2033 5

[网帖精选] Python分析新浪微博各种表情使用频率 [推广有奖]

0关注
146
粉丝

学术权威

72%

还不是VIP/贵宾

-

0%

威望: 3 级
论坛币: 497776 个
通用积分: 9293.7569
学术水平: 355 点
热心指数: 303 点
信用等级: 328 点
经验: 105005 点
帖子: 3169
精华: 16
在线时间: 3268 小时
注册时间: 2013-9-4
最后登录: 2023-12-23

楼主

littlelianglian 发表于 2014-7-2 15:56:38 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

主题：用新浪微博API积累了微博广场的1.4万条数据，我选择了21个字段输出为TXT文件，想用Python稍微处理一下，统计一下这1.4万条微博里面表情使用情况，统计结构在最后。

无聊的时候用了下新浪JAVA版的API，对JAVA还不熟悉，但是稍微改一下还是没问题的，数据保存为TXT文件，再用Python处理，JAVA部分很简单，Python部分只涉及到表情的正则提取，都不好意思写出来了。

1、调用新浪JAVA API下载微博广场数据
步骤思路：
初始化API的Weibo类，设置Token后，设置下载间隔，然后重复调用getPublicTimeline()函数就可以了，下面是主要类的代码：
这个不是完整的代码，没有初始化暂停间隔，可以掠过，很简单。

View Code

2、数据格式：

要取得数据就是微博内容，先练一下手玩玩。

3、Python处理数据
目标：查看微博用户表情使用情况，暂时只分性别，如果积累了合适的数据后可以分析各个时间段人们爱用哪种表情。
步骤：
$ 读取TXT文件，递归处理每一行
$ 单独提取出微博字段，正则提取表情字段，同时把性别提取出来，放到一个dict里面，dict的格式是：表情/女性使用频率/男性使用频率，递归处理，累积频率
$ 把结果写入到文件
注意：Python正则提取中文部分，先解码成unicode编码，再正则提取，表情的标志是[]，虽有误差，但无大碍。
代码：
__collection函数是处理函数，返回处理结果(dict)

View Code

脚本运行结果：

把结果放到EXCEL里面重新排序，得到如下结果：

-============================================================

本文为转载

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：python 新浪微博 Collection Python处理 unicode 新浪微博时间段 Token 主题 JAVA

相关帖子

已有 1 人评分	论坛币	收起理由
狂热的爱好者	+ 60	精彩帖子

总评分: 论坛币 + 60 查看全部评分

CDA数据分析交流群 217748971

回复

使用道具举报

沙发

kenshinlong 发表于 2014-7-2 16:22:32 |只看作者 |坛友微信交流群

有点意思

回复

使用道具举报

藤椅

songlinjl 发表于 2014-7-2 17:21:00 |只看作者 |坛友微信交流群

多谢多谢

回复

使用道具举报

板凳

学生认证

发表于 2014-7-2 17:23:47 来自手机 |只看作者 |坛友微信交流群

littlelianglian 发表于 2014-7-2 15:56
主题：用新浪微博API积累了微博广场的1.4万条数据，我选择了21个字段输出为TXT文件，想用Python稍微处理一下 ...

挺有趣！

回复

使用道具举报

报纸

长线小白龙

在职认证

企业认证

发表于 2014-7-3 07:36:36 |只看作者 |坛友微信交流群

女用户发的明显比男用户多啊。。。。。。。。。。。。。

回复

使用道具举报

地板

狂热的爱好者

学生认证

发表于 2014-7-3 22:40:43 |只看作者 |坛友微信交流群

实用贴啊

回复

使用道具举报

发帖

本版微信群

加好友,备注cda
拉您进交流群

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明