4724 13

[问答] 基于 R 语言的自动化数据采集技术---Webdriver调用selenium 失效,无法新建浏览器 [推广有奖]

  • 1关注
  • 1粉丝

博士生

5%

还不是VIP/贵宾

-

威望
0
论坛币
6 个
通用积分
2.0812
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
5986 点
帖子
144
精华
0
在线时间
108 小时
注册时间
2010-9-3
最后登录
2021-3-29

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
==========背景===================
本人最近在R语言爬虫,但是有的网站是动态的json格式,每次找跳转的网址,好麻烦,因此,寻找新的方法,架构一个浏览器,在自己的浏览器里面寻找网址。于是有了以下的问题:

==========执行步骤分割线============
1、cmd启用 java -jar selenium-server-standalone-2.53.0.jar //启动selenium
2、R控制台
> library("Rwebdriver", lib.loc="C:/Program Files/R/R-3.2.3/library")
Loading required package: RCurl
Loading required package: bitops
Loading required package: RJSONIO
> library("XML", lib.loc="\\\\CNDOUW0000/Users/CNLeeWi/R/win-library/3.2")
> start_session(root = "http://localhost/wd/hub/" ,browser = "firefox")
Error in function (type, msg, asError = TRUE)  :
  Failed to connect to localhost port 80: Connection refused


=========相关资料链接================

http://www.r-bloggers.com/scraping-with-selenium/

https://cran.r-project.org/web/packages/RSelenium/vignettes/RSelenium-basics.html

https://github.com/coderLMN/AutomatedDataCollectionWithR/issues






二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:driver drive Elen 数据采集 R调用 新建 function localhost required 浏览器

沙发
juliewong 在职认证  发表于 2016-7-25 16:36:38 |只看作者 |坛友微信交流群
R语言能干这么多事

使用道具

juliewong 发表于 2016-7-25 16:36
R语言能干这么多事
R的世界,个人觉得网络数据采集、数据挖掘、可视化、机器学习等方面都有自己独到的优势

使用道具

板凳
zhaoleibupt 发表于 2016-7-25 17:29:46 |只看作者 |坛友微信交流群
不要用R爬动态网页,超级超级麻烦,还是用Python吧,R分析数据就行。

使用道具

zhaoleibupt 发表于 2016-7-25 17:29
不要用R爬动态网页,超级超级麻烦,还是用Python吧,R分析数据就行。
就目前来说,爬虫确实不是R的擅长,python爬的比较简单。我也只是小型数据爬取,例如网 站评 价,作为一个尝试也未尝不可

使用道具

地板
zhaoleibupt 发表于 2016-7-25 17:39:51 |只看作者 |坛友微信交流群
太阳之子追梦者 发表于 2016-7-25 17:37
就目前来说,爬虫确实不是R的擅长,python爬的比较简单。我也只是小型数据爬取,例如网 站评 价,作为一个 ...
网站的评论一般都是用ajax写的,需要模拟浏览器或者抓包,最好还是Python。抓包的话R部分可以,模拟浏览器就算了。

使用道具

zhaoleibupt 发表于 2016-7-25 17:39
网站的评论一般都是用ajax写的,需要模拟浏览器或者抓包,最好还是Python。抓包的话R部分可以,模拟浏览器 ...
R模拟浏览器的方式,国外早就有了,用滥了都。限于本人英文水平一般(哎,是个痛点),有的地方看的似懂非懂,所以来这里看看有没有人做过。我有请教使用python的朋友,其实逻辑是一样的,他们也用selenium

使用道具

8
juliewong 在职认证  发表于 2016-7-25 20:09:38 |只看作者 |坛友微信交流群
太阳之子追梦者 发表于 2016-7-25 17:11
R的世界,个人觉得网络数据采集、数据挖掘、可视化、机器学习等方面都有自己独到的优势
可惜没有学会,有好的介绍吗,入门的资料

使用道具

juliewong 发表于 2016-7-25 20:09
可惜没有学会,有好的介绍吗,入门的资料
指的是?

使用道具

10
yangming98 发表于 2016-7-25 22:41:39 来自手机 |只看作者 |坛友微信交流群
太阳之子追梦者 发表于 2016-7-25 16:26
==========背景===================
本人最近在R语言爬虫,但是有的网站是动态的json格式,每次找跳转的网 ...
学习了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 00:15