如果想抓取如下链接右上角的阅读,讨论,粉丝数
http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic
92.4万阅读 | 1.7万讨论 | 58粉丝 |
在源文件里查看 92.4万 是在<script>标签里。
R程序如下:
library(rvest)
url = 'http://weibo.com/p/100808f8b273063bbf129c4b4c8d4b88490682?k=Galaxy+S6+edge&from=526&_from_=huati_topic'
session = url %>% html_session() %>% html_nodes("????")%>%html_text()
问题:html_nodes("????")里的 CSS selector如何选取?
第二个问题,
在itellin的博客 http://blog.sciencenet.cn/blog-556556-850288.html里
提到“通过查看器立刻知道表格数据都在td:nth-child(1),td:nth-child(3)之类的节点中,直接代码提取就行了”。
什么查看器啊,利用火狐的查看器看不到啊
多谢了