楼主: peishenfei
3616 2

[程序分享] 用RSelenium与网页交互,并抓取数据 [推广有奖]

  • 0关注
  • 1粉丝

硕士生

3%

还不是VIP/贵宾

-

威望
0
论坛币
114 个
通用积分
0.0600
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
9801 点
帖子
64
精华
0
在线时间
122 小时
注册时间
2015-12-13
最后登录
2018-11-8

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
用R/python写个爬虫的话,网上有很多教程
这里介绍一个和网页交互,并抓取数据的方法
(比如在http://ccpl.psych.ac.cn/textmind/,分析800个文本,并抓取数据,网页提供的软件运行起来会报错,否则我也不至于写这个了)

win10,64bit

firefox版本45,selenium2.53配合使用
chrome 版本47,selenium3.3.1配合使用
(现在的大家的火狐估计都比45高了,可以测试使用高版本的selenium)
运行selenium要有java的环境(我这里是java8)

下载 selenium
http://selenium-release.storage.googleapis.com/index.html

火狐驱动
https://github.com/mozilla/geckodriver/releases

chrome 驱动
# https://sites.google.com/a/chromium.org/chromedriver/downloads


上述三个文件,路径随意,但是驱动必须要在环境变量path中

先启动selenium
1.在cmd下,用cd命令切换到selenium的目录(打开cmd,默认路径在c盘,如果想切换到其他盘需要用/d 选型,比如 cd /d e:/downloads(不区分大小写)
2.java -jar selenium-xxx.jar

启动R
  1. library(RSelenium)
  2. library(XML)
  3. library(httr)
复制代码
之所以让窗口不断地改变,是因为 在线分析 这个按钮必须被看见才能被扑捉到,否则but$clickElement()会报错(其实应该模拟鼠标下滚,但是相应的命令我查不到,总是报错,所以用了这个办法暂时替代
数据提供20条(多了也没意思)

如果有不对的地方,尽管指正,轻喷,谢谢。 truthful_from_TripAdvisor.rar (8.14 KB, 需要: 1 个论坛币) 本附件包括:
  • t_affinia_7.txt
  • t_affinia_8.txt
  • t_affinia_9.txt
  • t_affinia_10.txt
  • t_affinia_11.txt
  • t_affinia_12.txt
  • t_affinia_13.txt
  • t_affinia_14.txt
  • t_affinia_15.txt
  • t_affinia_16.txt
  • t_affinia_17.txt
  • t_affinia_18.txt
  • t_affinia_19.txt
  • t_affinia_20.txt
  • t_affinia_1.txt
  • t_affinia_2.txt
  • t_affinia_3.txt
  • t_affinia_4.txt
  • t_affinia_5.txt
  • t_affinia_6.txt
code.txt (1.94 KB, 需要: 2 个论坛币)

reference
http://yangdan1988.blog.51cto.com/6983723/1205237
https://cran.r-project.org/web/packages/RSelenium/vignettes/RSelenium-basics.html#sending-mouse-events-to-elements
http://www.cnblogs.com/Yiutto/p/6238946.html
http://www.computerworld.com/article/2971265/application-development/how-to-drive-a-web-browser-with-r-and-rselenium.html#RSeleniumChart
https://www.youtube.com/watch?v=PYy5C9IIgp8
http://m.blog.csdn.net/article/details?id=46917159
https://www.ibm.com/developerworks/cn/java/j-lo-keyboard/

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:网页

已有 1 人评分论坛币 收起 理由
cheetahfly + 50 精彩帖子

总评分: 论坛币 + 50   查看全部评分

本帖被以下文库推荐

沙发
yangming98 发表于 2017-3-25 22:27:53 来自手机 |只看作者 |坛友微信交流群
peishenfei 发表于 2017-3-25 18:08
用R/python写个爬虫的话,网上有很多教程
这里介绍一个和网页交互,并抓取数据的方法
(比如在http://ccp ...
好的好的

使用道具

藤椅
mahonezhang 发表于 2018-10-8 11:20:11 |只看作者 |坛友微信交流群
楼主  运行您提供的程序  出现了这样的问题  请问怎么样解  谢谢
[1] "Connecting to remote server"
Error in checkError(res) :
  Undefined error in httr call. httr output: Failed to connect to localhost port 4444: Connection refused

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 08:10