请选择 进入手机版 | 继续访问电脑版
楼主: daishen
13650 16

[程序分享] 有了rvest,妈妈再也不用担心我的数据了。 [推广有奖]

prunusis 发表于 2016-1-21 10:30:52 |显示全部楼层 |坛友微信交流群
require(XML)
getHTMLLinks(htmlParse(readLines("https://www.gov.uk/government/announcements?keywords=&announcement_type_option=press-releases&topics[]=all&departments[]=all&world_locations[]=all&from_date=&to_date=01%2F07%2F2010")))

就这水平还敢臭屁这个那个相形见绌
e17862fef4e40a73e35137dcb1aba5fb.jpg

使用道具

library(rvest)

使用道具

学到了

使用道具

求教,能实现输入账号密码页面的信息抓取吗,自己有账号密码的情况下。

使用道具

bangmingshaw 发表于 2016-11-1 17:16:13 |显示全部楼层 |坛友微信交流群
distiner 发表于 2014-12-11 00:47
我想从一个网站上爬取数据,总共分页很多,但是一旦爬到一定的时候,网站最多会让我在不login的情况下,爬取 ...
同问,求解答!

使用道具

小白蹭楼请教一下,为何我的老是出错:
> library(rvest)> Link<-'http://comment.news.163.com/news_guonei_bbs/5SAOMV780001124J.html' > Dlink<-read_html(Link) > comment<-html_nodes(Dlink,'#tie-data-4 > div > div > div')> comment{xml_nodeset (0)}> rm(comment)> comment<-Dlink%>%html_nodes('div.list div div')%>%html_text()> commentcharacter(0)> comment<-Dlink%>%html_nodes('div.body div')%>%html_text()> comment [1] "确 定"                                                                                                                                                                                                                                                                                     [2] "\r\n            \r\n            \r\n            \r\n            \r\n            \r\n        "                                                                                                                                                                                              [3] "\r\n            \r\n            \r\n                您的帐号存在异常操作,为保证您的帐号安全,请输入验证码进行下一步操作。\r\n                \r\n                    验证码:\r\n                    看不清,换一张\r\n                \r\n                 \r\n            \r\n        " [4] ""                                                                                                                                                                                                                                                                                          [5] "\r\n                您的帐号存在异常操作,为保证您的帐号安全,请输入验证码进行下一步操作。\r\n                \r\n                    验证码:\r\n                    看不清,换一张\r\n                \r\n                 \r\n            "                                             [6] "\r\n            确 定\r\n            \r\n            取 消\r\n        "                                                                                                                                                                                                                    [7] "\r\n            \r\n            分享成功\r\n            \r\n                \r\n                    帐号绑定已经过期\r\n                \r\n                \r\n                    请重新绑定>>\r\n                \r\n            \r\n        "                                          [8] "\r\n                \r\n                    帐号绑定已经过期\r\n                \r\n                \r\n                    请重新绑定>>\r\n                \r\n            "                                                                                                              [9] "\r\n            打开邀请函\r\n        "                                                                                                                                                                                                                                                   [10] "\r\n            继续\r\n            取消\r\n        "                 

我怀疑是定位的CSS selector出了问题。请问如果想要获取评论页面的“用户名” “评论内容” “点赞数”,具体定位的CSS selector应该怎么写? 期待各位大牛的回复,谢谢!

使用道具

fkz2019 发表于 2017-12-3 21:53:36 |显示全部楼层 |坛友微信交流群
请问有这方面的书吗

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 17:21