楼主: lonesword
5497 4

[有偿编程] 用R写 爬虫遇到的几个问题:1.网址中有注释符号#。2.翻页网址不变。3.如何用R模拟登 [推广有奖]

  • 0关注
  • 0粉丝

小学生

85%

还不是VIP/贵宾

-

威望
0
论坛币
254 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
38 点
帖子
3
精华
0
在线时间
16 小时
注册时间
2005-12-4
最后登录
2015-8-3

楼主
lonesword 发表于 2015-6-22 10:35:21 |AI写论文
200论坛币
各位大侠,求帮助。

我遇到的问题:

1.用R写爬虫,爬博客园精华帖区的一些数据,网址链接是这样的 <http://www.cnblogs.com/pick/#p2> ,明显看到里面有“#”会注释掉后面的”p2“页码,只能爬第一页。下面把我的代码贴出来
library(magrittr)
library(proto)
library(gsubfn)
library(bitops)
library(rvest)
library(stringr)
library(DBI)
library(RSQLite)
library(RCurl)
library(sp)
library(raster)

#---------每一篇博文的标题
url <- 'http://www.cnblogs.com/pick/#p4'
        url%>%
            html_session()%>%
            html_nodes("div.post_item h3")%>%
            html_text()%>%
            as.character()%>%
            trim()
运行下来,爬下来的数据还是第一页博文的标题。
求大神支招!!!

2.还想爬一些精华帖的评论,就是谁给谁评论了,评论了什么内容这些信息。
拿下面这篇精华帖为例相对论并非遥不可及 ,拉到最下面,查看第一页的评论时,翻页,你会看到网址始终是<http://www.cnblogs.com/yangpf/p/4148488.html#!comments>,网址里面也没有标识 页码变化的信息。
对于这种我想爬到每一页的评论的详情,该怎么做??
跪求大神,大神相助!!

3.终极问题,如何用R模拟登陆博客园。

我现在的进展是,知道要用Rcurl这个包,要提交一大堆的东西给博客园服务器,包括加密后的用户名,密码;以及多次机器登陆后,如何搞定验证码等等

我没有实现。。。

跪求跪求大神帮忙!!


关键词:如何用 Character Library session sqlite library 如何 博客 生肖

沙发
qq345763920 发表于 2015-6-22 23:41:53
pytho爬虫没搞过,不过原理应该是一样的。就你这种情况,我们可以对url进行“编码/解码”,然后再抓取;而且就这个url而言,其真正的请求地址应该是“http://www.cnblogs.com/mvc/AggSite/PostList.aspx”,第三页的参数为:{"CategoryType":"Picked","ParentCategoryId":0,"CategoryId":-2,"PageIndex":3,"ItemListActionName":"PostList"}。可以在浏览器端按f12,或者用其他工具抓包观察

藤椅
lonesword 发表于 2015-6-23 19:37:40
第一个问题已经自行解决,啊哈哈,不过依然感谢楼上兄弟消灭0回复。

板凳
xiaoxiaoyudian 发表于 2015-6-24 12:17:45
mark 同问

报纸
vloz 发表于 2015-10-12 21:58:52
我有个相似的问题求关注 https://bbs.pinggu.org/forum.php?mod=viewthread&tid=3933221 ,楼主怎么解决第一个问题的??

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 22:01