楼主: 归@零
7734 9

[问答] 用R进行网页表格数据抓取问题 [推广有奖]

  • 0关注
  • 0粉丝

本科生

3%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
569 点
帖子
32
精华
0
在线时间
90 小时
注册时间
2011-11-28
最后登录
2018-7-16

楼主
归@零 发表于 2015-9-15 16:32:59 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在网上找到一个用R进行网页表格数据抓取问题的博客,但用R操作好像得不到结果,哪位大神有经验的帮忙解答一下?
require(XML)
require(RCurl)

webpage<-getURL(link) #此处我将link换成所需表格所在的网页地址,例如"www.baidu.com"
  webpage <- readLines(tc <- textConnection(webpage)); close(tc)
  pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE)
tablehead <- xpathSApply(pagetree, "//table//th", xmlValue)  #这里是抓表格的标题
result<-xpathSApply(pagetree,"//table//td",xmlValue)   #这里是表格内容

怎么能得到表格,在线求支援!!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:表格数据 数据抓取 require Rcurl Equi require 网页 博客 网上

沙发
ryoeng 在职认证  发表于 2015-9-15 19:39:13
提示: 作者被禁止或删除 内容自动屏蔽
签名被屏蔽

藤椅
归@零 发表于 2015-9-16 11:19:49
ryoeng 发表于 2015-9-15 19:39
F12 >> Network >> XHR
或者直接在该文件链接点击右键后Inspect Element...
http://cos.name/cn/topic/11 ...
大神,我是R菜鸟,能否详细解释一下,我的需求是获取指定网址内的表格数据

板凳
ryoeng 在职认证  发表于 2015-9-16 14:01:34

统计之都

提示: 作者被禁止或删除 内容自动屏蔽
签名被屏蔽

报纸
归@零 发表于 2015-9-17 18:08:05
ryoeng 发表于 2015-9-16 14:01
采集数据 与 webdriver 是肖南兄和itelin的强项。(咱也是三年前从统计之都学来的)
http://cos.n ...
d1 = url %>% html_session() %>% html_nodes("li .td-1st") %>% html_text(encoding="UTF-8")

能麻烦您帮我解释下这类语句的作用是什么? html_session() ;html_nodes;html_text是什么意思,还有里面的参数怎么获取?

地板
ryoeng 在职认证  发表于 2015-9-18 18:54:54
提示: 作者被禁止或删除 内容自动屏蔽

7
归@零 发表于 2015-9-22 14:00:52
ryoeng 发表于 2015-9-18 18:54
有例子可参考。。。
http://www.jeepshoe.org/84888464.htm
http://www.jeepshoe.org/86916906.htm
我也搜索了很多案例看过了,最主要的还是不知道html_nodes("li .td-1st")节点"li .td-1st"是什么意思,怎么获取、确定

8
归@零 发表于 2015-9-22 14:17:41
归@零 发表于 2015-9-22 14:00
我也搜索了很多案例看过了,最主要的还是不知道html_nodes("li .td-1st")节点"li .td-1st"是什么意思,怎 ...
我稍微懂点了,li:   td:  th: 是html的标签,但是如何获取还是不懂

9
ryoeng 在职认证  发表于 2015-9-23 20:34:57
提示: 作者被禁止或删除 内容自动屏蔽
签名被屏蔽

10
归@零 发表于 2015-9-24 10:09:47
ryoeng 发表于 2015-9-23 20:34
(咱十多年前修读电脑科学时学的,使用notepad编写网页的时代,都忘光了,得温习... 尤其是日后使用shiny ...
感谢大师耐心细致的指导!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 17:40