人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › 请教用rvest包抓取数据时如何查看html_node

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 下一页

发帖

楼主: cholet110

13976 11

[问答] 请教用rvest包抓取数据时如何查看html_node [推广有奖]

0关注
1粉丝

等待验证会员

小学生

92%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 1 点
热心指数: 1 点
信用等级: 0 点
经验: 100 点
帖子: 12
精华: 0
在线时间: 5 小时
注册时间: 2015-8-23
最后登录: 2016-3-11

楼主

cholet110 发表于 2015-8-23 22:49:24 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

第一个问题、

如果想抓取如下链接右上角的阅读，讨论，粉丝数

http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic

92.4万阅读

1.7万讨论

58粉丝

在源文件里查看 92.4万是在<script>标签里。

R程序如下：

library(rvest)

url = 'http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic'

session = url %>% html_session() %>% html_nodes("????")%>%html_text()

问题：html_nodes("????")里的 CSS selector如何选取？

第二个问题，

在itellin的博客 http://blog.sciencenet.cn/blog-556556-850288.html里

提到“通过查看器立刻知道表格数据都在td:nth-child(1),td:nth-child(3)之类的节点中，直接代码提取就行了”。

什么查看器啊，利用火狐的查看器看不到啊

多谢了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏2 回帖

关键词：Vest 抓取数据 HTML Node Est 如何

相关帖子

142942u44aa9fwhxz9hhlx.png (239.39 KB)

使用道具举报

加关注串个门加好友发消息 677 关注 49粉丝禁止访问先生 ryoeng 当前离线阅读权限 0 威望 0 级论坛币 11663 个通用积分 1659.7343 学术水平 202 点热心指数 266 点信用等级 117 点经验 145213 点帖子 1327 精华 0 在线时间 1204 小时注册时间 2014-12-23 最后登录 2024-4-18 雷达卡	沙发 ryoeng 发表于 2015-8-24 07:35:52 \|只看作者 \|坛友微信交流群提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报显身卡

加关注串个门加好友发消息 677 关注 49粉丝禁止访问先生 ryoeng 当前离线阅读权限 0 威望 0 级论坛币 11663 个通用积分 1659.7343 学术水平 202 点热心指数 266 点信用等级 117 点经验 145213 点帖子 1327 精华 0 在线时间 1204 小时注册时间 2014-12-23 最后登录 2024-4-18 雷达卡	藤椅 ryoeng 发表于 2015-8-24 09:06:12 \|只看作者 \|坛友微信交流群提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报显身卡

板凳

cholet110 发表于 2015-8-24 18:22:18 |只看作者 |坛友微信交流群

ryoeng 发表于 2015-8-24 09:06
あゆみ - WHO ❤❤❤
これからもずっとこの歌声が，
あなたに届きます様にと；

多谢了，就是不懂XPATH是如何设置的，网上好多说用查看器就可以，可以一直没找到是如何查看的，

使用道具举报

报纸

cholet110 发表于 2015-8-24 18:25:04 |只看作者 |坛友微信交流群

ryoeng 发表于 2015-8-24 09:06
あゆみ - WHO ❤❤❤
これからもずっとこの歌声が，
あなたに届きます様にと；

[@id="main"]/div[2]/div[3]/div/div[1]/div[1]/div 这个方括号里的数是什么意思，另外“main”是从哪儿找到的，源文件？

使用道具举报

地板

cholet110 发表于 2015-8-24 18:27:27 |只看作者 |坛友微信交流群

ryoeng 发表于 2015-8-24 07:35
http://www.r-bloggers.com/migrating-table-oriented-web-scraping-code-to-rvest-wxpath-css-selector-ex ...

能给介绍下 html_nodes(".td-2nd a[href*='air']")，里面的参数是怎么选的吗？源文件找不到

使用道具举报

7楼

cholet110 发表于 2015-8-24 18:41:00 |只看作者 |坛友微信交流群

ryoeng 发表于 2015-8-24 07:35
http://www.r-bloggers.com/migrating-table-oriented-web-scraping-code-to-rvest-wxpath-css-selector-ex ...

您能给点XPATH或者CSS selector的例子吗？这块一直没概念

使用道具举报

8楼

cholet110 发表于 2015-8-25 18:36:12 |只看作者 |坛友微信交流群

解决了，有软件 http://selectorgadget.com/

已有 1 人评分	学术水平	热心指数	收起理由
ryoeng	+ 1	+ 1	鼓励积极发帖讨论

总评分: 学术水平 + 1 热心指数 + 1 查看全部评分

使用道具举报

加关注串个门加好友发消息 677 关注 49粉丝禁止访问先生 ryoeng 当前离线阅读权限 0 威望 0 级论坛币 11663 个通用积分 1659.7343 学术水平 202 点热心指数 266 点信用等级 117 点经验 145213 点帖子 1327 精华 0 在线时间 1204 小时注册时间 2014-12-23 最后登录 2024-4-18 雷达卡	9楼 ryoeng 发表于 2015-8-27 17:07:29 \|只看作者 \|坛友微信交流群提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报显身卡