楼主: 我要考东财
14536 11

[学习分享] 怎么用R进行网页抓取? [推广有奖]

  • 0关注
  • 2粉丝

已卖:397份资源

本科生

84%

还不是VIP/贵宾

-

威望
0
论坛币
667 个
通用积分
0.0600
学术水平
2 点
热心指数
1 点
信用等级
0 点
经验
1285 点
帖子
118
精华
0
在线时间
76 小时
注册时间
2012-10-28
最后登录
2017-3-8

楼主
我要考东财 发表于 2013-2-27 21:47:12 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
怎么用R进行网页上的数据抓取,回答的好赏大洋啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:网页抓取 数据抓取 网页

沙发
ilikeyahoo 发表于 2013-2-28 06:06:01
R的文本处理不是很强,为什么用R做这个?奇怪的问题。感觉像那根树枝上山打老虎去

藤椅
trier2006 发表于 2013-2-28 09:25:58
帮顶
最好的医生是自己,最好的药物是时间……

板凳
ltx5151 发表于 2013-2-28 11:34:39
如果用Python或者C#可能更容易。但是R本身也有很强的处理功能。
用regular expression. 将html的source打开,比如可以将其按照txt的格式打开。里面的编码都是有规律的,接下来用regular experssion打开。比较常用的函数有gsub, strsplit, grep等,lz可以自己看帮助文件。

已有 1 人评分经验 论坛币 收起 理由
李会超 + 100 + 20 精彩帖子

总评分: 经验 + 100  论坛币 + 20   查看全部评分

报纸
我要考东财 发表于 2013-2-28 21:51:11
谢谢了

地板
い轩ウゾ菱 发表于 2015-4-23 12:05:29
用XML包进行网页文本、表格抓取

7
dataorz 发表于 2015-4-23 16:35:56
网络爬虫利器 RCurl

8
feng026 发表于 2015-4-23 18:24:48
可以看看最新的rvest 包。

9
xuxinpeng45 学生认证  发表于 2015-4-23 22:52:58
R可以在网页上抓取数据,一种途径是使用函数readlines()下载网页,然后使用如grep()和gsub()一类的函数处理,对于结构复杂的网页,可以使用RCurl和XML包来提取其中想要的信息。更多信息和示例,参考在Programming with R(www.progranming.com)上找到的“Webscraping Using ReadLines and Rcurl”一文;
是我在读R语言实战的时候看到的,楼主可以参考

10
lisong-1227 学生认证  发表于 2015-4-24 18:32:42
又长知识了

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-22 03:46