楼主: quandongping
2392 13

[求助成功] 【免费爬虫】爬虫君免费为您爬取数据!!! [推广有奖]

11
阆苑玉 发表于 2018-1-19 19:40:17 |只看作者 |坛友微信交流群
您好,我想爬取的数据可能稍稍有点复杂,有点多大致步骤如下:
一、爬取豆瓣上某一成员(该成员为种子成员A)看过的书、电影、音乐的信息。具体想要获得的信息如下:
【电影】:这位成员看过的电影的名字、观看的时间、该成员给的标签、该成员给这部电影的评分,以及豆瓣对这部电影的评分
【书籍】:这位成员看过的书籍的名字、观看的时间、该成员给的标签、书籍的价格、该成员给这本书籍的评分、以及豆瓣对这本书的评分
【音乐】:这位成员听过的音乐的名字、听过的时间、歌手名称、音乐类型、音乐发行时间、该成员对首音乐的评分、以及豆瓣对这首音乐的评分
二、获取该种子成员关注的成员的信息(该成员集合为B)
三、该种子成员关注的每一位成员(B)关注的成员信息(获得的成员集合为C)

我不知道我表述清楚没有,简单的来说,就是先选取一个种子成员(暂且叫A),爬出A的信息(也是上面说的电影、书籍、音乐信息)。再爬出A关注的所有成员(暂且叫集合B)的信息(也是上面说的电影、书籍、音乐信息)。再爬出B集合中,每个成员所关注成员(暂且叫集合C)的信息(也是上面说的电影、书籍、音乐信息)。

总的来说就是得到三个集合A,B,C。然后获得这3个集合的电影、书籍、音乐、关注人数、被关注人数信息。
那第一个种子成员怎么选呢?其实是随机选,但最理想的是该种子成员关注人数上百,而且自己也有一批关注者。最终可能有上千条数据。

楼主觉得您的方法可以试一下么

豆瓣数据示例截图.docx

623.19 KB

使用道具

12
quandongping 在职认证  发表于 2018-1-20 16:54:33 |只看作者 |坛友微信交流群
阆苑玉 发表于 2018-1-19 19:40
您好,我想爬取的数据可能稍稍有点复杂,有点多大致步骤如下:
一、爬取豆瓣上某一成员(该成员为种子成员 ...
您好,首先谢谢您详细认真的回复。
我看了你需要的信息的网页结构以及您的需求,感觉您获取信息的逻辑是多层嵌套而且是网状的。
由于我的是无需编程的爬虫,一般只是做两层嵌套,也就是说以选好的A为种子,爬取A的信息后,再爬取A关注者的信息,很难再爬关注者的关注者的信息。
估计您需要找有经验的编程爬虫人士才能较好的实现。
祝好祝顺。

使用道具

13
645838246 学生认证  发表于 2019-3-3 19:46:17 |只看作者 |坛友微信交流群
楼主您好,首先谢谢您的无私奉献~
我想请您帮忙爬取经管之家五区
计量经济学与统计软件stata专版
前60页的帖子的标题、阅读数、评论数、作者名称、作者的粉丝数、作者的关注数
再次感谢!

使用道具

14
talentsongsym 发表于 2020-11-7 21:02:32 |只看作者 |坛友微信交流群
刚好在学习爬数据,看到楼主帖子,看到楼主说授人以渔,但是没有找到相关教程呀。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 07:14