[求助成功] 【免费爬虫】爬虫君免费为您爬取数据！！！ [推广有奖]

11楼

阆苑玉 发表于 2018-1-19 19:40:17 |只看作者 |坛友微信交流群

您好，我想爬取的数据可能稍稍有点复杂，有点多大致步骤如下：
一、爬取豆瓣上某一成员（该成员为种子成员A）看过的书、电影、音乐的信息。具体想要获得的信息如下：
【电影】：这位成员看过的电影的名字、观看的时间、该成员给的标签、该成员给这部电影的评分，以及豆瓣对这部电影的评分
【书籍】：这位成员看过的书籍的名字、观看的时间、该成员给的标签、书籍的价格、该成员给这本书籍的评分、以及豆瓣对这本书的评分
【音乐】：这位成员听过的音乐的名字、听过的时间、歌手名称、音乐类型、音乐发行时间、该成员对首音乐的评分、以及豆瓣对这首音乐的评分
二、获取该种子成员关注的成员的信息（该成员集合为B）
三、该种子成员关注的每一位成员（B）关注的成员信息（获得的成员集合为C）

我不知道我表述清楚没有，简单的来说，就是先选取一个种子成员（暂且叫A），爬出A的信息（也是上面说的电影、书籍、音乐信息）。再爬出A关注的所有成员（暂且叫集合B）的信息（也是上面说的电影、书籍、音乐信息）。再爬出B集合中，每个成员所关注成员（暂且叫集合C）的信息（也是上面说的电影、书籍、音乐信息）。

总的来说就是得到三个集合A，B，C。然后获得这3个集合的电影、书籍、音乐、关注人数、被关注人数信息。
那第一个种子成员怎么选呢？其实是随机选，但最理想的是该种子成员关注人数上百，而且自己也有一批关注者。最终可能有上千条数据。

楼主觉得您的方法可以试一下么

豆瓣数据示例截图.docx

623.19 KB

使用道具举报

12楼

quandongping

发表于 2018-1-20 16:54:33 |只看作者 |坛友微信交流群

阆苑玉发表于 2018-1-19 19:40
您好，我想爬取的数据可能稍稍有点复杂，有点多大致步骤如下：
一、爬取豆瓣上某一成员（该成员为种子成员 ...

您好，首先谢谢您详细认真的回复。
我看了你需要的信息的网页结构以及您的需求，感觉您获取信息的逻辑是多层嵌套而且是网状的。
由于我的是无需编程的爬虫，一般只是做两层嵌套，也就是说以选好的A为种子，爬取A的信息后，再爬取A关注者的信息，很难再爬关注者的关注者的信息。
估计您需要找有经验的编程爬虫人士才能较好的实现。
祝好祝顺。

使用道具举报