您好,我想爬取的数据可能稍稍有点复杂,有点多大致步骤如下:
一、爬取豆瓣上某一成员(该成员为种子成员A)看过的书、电影、音乐的信息。具体想要获得的信息如下:
【电影】:这位成员看过的电影的名字、观看的时间、该成员给的标签、该成员给这部电影的评分,以及豆瓣对这部电影的评分
【书籍】:这位成员看过的书籍的名字、观看的时间、该成员给的标签、书籍的价格、该成员给这本书籍的评分、以及豆瓣对这本书的评分
【音乐】:这位成员听过的音乐的名字、听过的时间、歌手名称、音乐类型、音乐发行时间、该成员对首音乐的评分、以及豆瓣对这首音乐的评分
二、获取该种子成员关注的成员的信息(该成员集合为B)
三、该种子成员关注的每一位成员(B)关注的成员信息(获得的成员集合为C)
我不知道我表述清楚没有,简单的来说,就是先选取一个种子成员(暂且叫A),爬出A的信息(也是上面说的电影、书籍、音乐信息)。再爬出A关注的所有成员(暂且叫集合B)的信息(也是上面说的电影、书籍、音乐信息)。再爬出B集合中,每个成员所关注成员(暂且叫集合C)的信息(也是上面说的电影、书籍、音乐信息)。
总的来说就是得到三个集合A,B,C。然后获得这3个集合的电影、书籍、音乐、关注人数、被关注人数信息。
那第一个种子成员怎么选呢?其实是随机选,但最理想的是该种子成员关注人数上百,而且自己也有一批关注者。最终可能有上千条数据。
楼主觉得您的方法可以试一下么