楼主: daishen
14400 16

[程序分享] 有了rvest,妈妈再也不用担心我的数据了。 [推广有奖]

11
prunusis 发表于 2016-1-21 10:30:52
require(XML)
getHTMLLinks(htmlParse(readLines("https://www.gov.uk/government/announcements?keywords=&announcement_type_option=press-releases&topics[]=all&departments[]=all&world_locations[]=all&from_date=&to_date=01%2F07%2F2010")))

就这水平还敢臭屁这个那个相形见绌
e17862fef4e40a73e35137dcb1aba5fb.jpg

12
944536616@qq.co 发表于 2016-9-9 15:49:34
library(rvest)

13
944536616@qq.co 发表于 2016-9-9 23:21:16
学到了

14
驻马店周杰伦 发表于 2016-9-11 19:22:46
求教,能实现输入账号密码页面的信息抓取吗,自己有账号密码的情况下。

15
bangmingshaw 发表于 2016-11-1 17:16:13
distiner 发表于 2014-12-11 00:47
我想从一个网站上爬取数据,总共分页很多,但是一旦爬到一定的时候,网站最多会让我在不login的情况下,爬取 ...
同问,求解答!

16
lovelifedanny 发表于 2017-9-18 03:59:07
小白蹭楼请教一下,为何我的老是出错:
> library(rvest)> Link<-'http://comment.news.163.com/news_guonei_bbs/5SAOMV780001124J.html' > Dlink<-read_html(Link) > comment<-html_nodes(Dlink,'#tie-data-4 > div > div > div')> comment{xml_nodeset (0)}> rm(comment)> comment<-Dlink%>%html_nodes('div.list div div')%>%html_text()> commentcharacter(0)> comment<-Dlink%>%html_nodes('div.body div')%>%html_text()> comment [1] "确 定"                                                                                                                                                                                                                                                                                     [2] "\r\n            \r\n            \r\n            \r\n            \r\n            \r\n        "                                                                                                                                                                                              [3] "\r\n            \r\n            \r\n                您的帐号存在异常操作,为保证您的帐号安全,请输入验证码进行下一步操作。\r\n                \r\n                    验证码:\r\n                    看不清,换一张\r\n                \r\n                 \r\n            \r\n        " [4] ""                                                                                                                                                                                                                                                                                          [5] "\r\n                您的帐号存在异常操作,为保证您的帐号安全,请输入验证码进行下一步操作。\r\n                \r\n                    验证码:\r\n                    看不清,换一张\r\n                \r\n                 \r\n            "                                             [6] "\r\n            确 定\r\n            \r\n            取 消\r\n        "                                                                                                                                                                                                                    [7] "\r\n            \r\n            分享成功\r\n            \r\n                \r\n                    帐号绑定已经过期\r\n                \r\n                \r\n                    请重新绑定>>\r\n                \r\n            \r\n        "                                          [8] "\r\n                \r\n                    帐号绑定已经过期\r\n                \r\n                \r\n                    请重新绑定>>\r\n                \r\n            "                                                                                                              [9] "\r\n            打开邀请函\r\n        "                                                                                                                                                                                                                                                   [10] "\r\n            继续\r\n            取消\r\n        "                 

我怀疑是定位的CSS selector出了问题。请问如果想要获取评论页面的“用户名” “评论内容” “点赞数”,具体定位的CSS selector应该怎么写? 期待各位大牛的回复,谢谢!

17
fkz2019 发表于 2017-12-3 21:53:36
请问有这方面的书吗

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-26 03:57