楼主: xiazizi
4849 9

[问答] 关于R语言XLM爬数据的问题 [推广有奖]

  • 1关注
  • 2粉丝

大专生

46%

还不是VIP/贵宾

-

威望
0
论坛币
4 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
832 点
帖子
17
精华
0
在线时间
57 小时
注册时间
2015-1-2
最后登录
2019-12-22

楼主
xiazizi 发表于 2015-1-21 09:45:09 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
最近在网上看到可以用R爬数据的。但是出现了问题不会解决。请大神指点迷津。
##问题1
library(“XML”, lib.loc=”F:/RStudio/R-3.1.2/library”)
library(“RCurl”, lib.loc=”~/R/win-library/3.1″)
url = ‘http://www.stats.gov.cn/tjsj/ndsj/2014/indexch.htm’##统计之都上的数据
doc<-htmlParse(url)
x <- readHTMLTable(doc)
##得出结果
> x
named list()

###问题2
u1=”http://tech.163.com/special/00094IGJ/top1000.html”
ta=readHTMLTable(u1,encoding=”UTF-8″)

##得到的是一堆乱码?
###问题有点多。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:R语言 Library RStudio Studio BRARY library 统计 网上

本帖被以下文库推荐

沙发
jerker 发表于 2015-1-21 10:09:08
http://www.crifan.com/try_use_r_language_do_web_crawl_and_extract_info/
试试用别的包吧

藤椅
巫慢慢 发表于 2015-1-21 10:33:46
怎么说呢,我把你的URL里的链接打开后,只有一个页面,里面是图片。没有数据,你要爬什么?

QQ截图20150121103134.jpg (195.74 KB)

QQ截图20150121103134.jpg

板凳
巫慢慢 发表于 2015-1-21 11:30:26
对于第二个乱码问题,简单写了一下
a<-"http://tech.163.com/special/00094IGJ/top1000.html"
aa<-htmlParse(a)
b<-getNodeSet(aa,'//div//table//td')
cc<-sapply(b,xmlValue)
dd<-iconv(cc,"utf-8")
这样就不是乱码了。但是具体要爬什么数据,还要具体修改结点
已有 1 人评分经验 学术水平 热心指数 收起 理由
Nicolle + 20 + 5 + 5 精彩帖子

总评分: 经验 + 20  学术水平 + 5  热心指数 + 5   查看全部评分

报纸
xiazizi 发表于 2015-1-21 14:32:45
回复 巫慢慢
确实不乱码了,非常感谢。

地板
daishen 发表于 2015-1-21 14:47:37
> a %>% html(encoding = 'utf-8') %>% html_nodes("table") %>% .[[6]]%>% html_table()
        X 1            NA                NA          NA     NA              NA       NA
1  全球排名      网站名称              分类    独立访客 到达率      页面浏览量 有无广告
2         1  facebook.com          社交网络 540,000,000  35.2% 570,000,000,000       有
3         2     yahoo.com          门户网站 490,000,000  31.8%  70,000,000,000       有
4         3      live.com          搜索引擎 370,000,000  24.1%  39,000,000,000       有
5         4 wikipedia.org    字典和百科全书 310,000,000    20%   7,900,000,000       无
6         5       msn.com          门户网站 280,000,000  18.1%  11,000,000,000       有
7         6 microsoft.com              软件 230,000,000  14.8%   3,300,000,000       有
8         7  blogspot.com          博客服务 230,000,000  14.7%   4,400,000,000       有
9         8     baidu.com          搜索引擎 230,000,000    15%  27,000,000,000       有
10        9        qq.com      在线沟通服务 170,000,000  11.1%  25,000,000,000       有
11       10   mozilla.com 互联网软件/浏览器 140,000,000   9.2%   2,100,000,000       无
12       11   sina.com.cn          门户网站 130,000,000   8.4%   3,600,000,000       有
13       12 wordpress.com          博客服务 120,000,000   7.7%   1,200,000,000       有
14       13      bing.com          搜索引擎 110,000,000     7%   2,700,000,000       有
15       14     adobe.com              项目 110,000,000   6.9%   1,000,000,000       有
16       15       163.com          门户网站  98,000,000   6.3%   2,700,000,000       有
17       16    taobao.com          网络购物  98,000,000   6.3%  10,000,000,000       无
18       17      soso.com          在线娱乐  97,000,000   6.3%   1,400,000,000       无
19       18   twitter.com      在线沟通服务  96,000,000   6.2%   5,400,000,000       无
20       19     youku.com          视频网站  89,000,000   5.8%   1,700,000,000       有

7
daishen 发表于 2015-1-21 15:07:35
> a %>% html(encoding = 'utf-8') %>% html_nodes("table") %>% .[[6]]%>% html_table()
        X 1            NA                NA          NA     NA              NA       NA
1  全球排名      网站名称              分类    独立访客 到达率      页面浏览量 有无广告
2         1  facebook.com          社交网络 540,000,000  35.2% 570,000,000,000       有
3         2     yahoo.com          门户网站 490,000,000  31.8%  70,000,000,000       有
4         3      live.com          搜索引擎 370,000,000  24.1%  39,000,000,000       有
5         4 wikipedia.org    字典和百科全书 310,000,000    20%   7,900,000,000       无
6         5       msn.com          门户网站 280,000,000  18.1%  11,000,000,000       有
7         6 microsoft.com              软件 230,000,000  14.8%   3,300,000,000       有
8         7  blogspot.com          博客服务 230,000,000  14.7%   4,400,000,000       有
9         8     baidu.com          搜索引擎 230,000,000    15%  27,000,000,000       有
10        9        qq.com      在线沟通服务 170,000,000  11.1%  25,000,000,000       有
11       10   mozilla.com 互联网软件/浏览器 140,000,000   9.2%   2,100,000,000       无
12       11   sina.com.cn          门户网站 130,000,000   8.4%   3,600,000,000       有
13       12 wordpress.com          博客服务 120,000,000   7.7%   1,200,000,000       有
14       13      bing.com          搜索引擎 110,000,000     7%   2,700,000,000       有
15       14     adobe.com              项目 110,000,000   6.9%   1,000,000,000       有
16       15       163.com          门户网站  98,000,000   6.3%   2,700,000,000       有
17       16    taobao.com          网络购物  98,000,000   6.3%  10,000,000,000       无
18       17      soso.com          在线娱乐  97,000,000   6.3%   1,400,000,000       无
19       18   twitter.com      在线沟通服务  96,000,000   6.2%   5,400,000,000       无
20       19     youku.com          视频网站  89,000,000   5.8%   1,700,000,000       有
21       20       ask.com          搜索引擎  88,000,000   5.7%   1,700,000,000       有
>

8
starpirate2015 在职认证  发表于 2015-1-21 17:09:25
高手,学习了

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 18:46