楼主: sssyunsheng
13372 25

[程序分享] R与抓取豆瓣电影2000-2015年数据 [推广有奖]

11
trans 发表于 2015-6-17 20:57:00
感谢楼主的分享,有个地方没看明白哦“http://www.**.com/tag/2000/movie?start=”
这个网址啥意思?

12
sssyunsheng 在职认证  发表于 2015-6-17 21:01:57
trans 发表于 2015-6-17 20:57
感谢楼主的分享,有个地方没看明白哦“http://www.**.com/tag/2000/movie?start=”
这个网址啥意思?
你把它放到浏览器里就会明白了,他是你要抓取的页面啊

13
trans 发表于 2015-6-17 21:10:57
sssyunsheng 发表于 2015-6-17 21:01
你把它放到浏览器里就会明白了,他是你要抓取的页面啊
显示的是域名错误哈。。

14
sssyunsheng 在职认证  发表于 2015-6-17 21:13:30
好吧,豆瓣几个拼音被屏了,你拼一下就好了

15
sssyunsheng 在职认证  发表于 2015-6-17 21:14:20
trans 发表于 2015-6-17 21:10
显示的是域名错误哈。。
好吧,豆瓣几个拼音被屏了,你拼一下就好了

16
trans 发表于 2015-6-17 21:32:09
sssyunsheng 发表于 2015-6-17 21:14
好吧,豆瓣几个拼音被屏了,你拼一下就好了
我运行了,貌似跑不了噢
> library(XML)
> library(plyr)
> for(i in 1:100){
+ url1<-paste('http://www.**.com/tag/2010/movie?start=',15*i,sep="") #记得修改年份
+ web1 <- readLines(url1,encoding="UTF-8")
+ web<-c(web,web1)
+ }
Error: object 'web' not found

本人初学者,还望楼主不吝赐教,感谢!!

17
sssyunsheng 在职认证  发表于 2015-6-17 21:35:51
url<-'http://www.**.com/tag/2000/movie?start=0' #记得修改年份
web <- readLines(url,encoding="UTF-8")
system.time(for(i in 1:147){
  Sys.sleep(sample(15:20, 1))
  url1<-paste('http://www.**.com/tag/2000/movie?start=',15*i,sep="")#记得修改年份
  web1 <- readLines(url1,encoding="UTF-8")
  web<-c(web,web1)
  label <- i
})
**去掉换成豆瓣的拼音,以上整段跑一下,没关系,大家都是一点点学的,我上传了这个系列的整个pdf你可以参考下

18
trans 发表于 2015-6-18 08:05:07
sssyunsheng 发表于 2015-6-17 21:35
url
楼主热心人哈

19
trans 发表于 2015-6-22 17:17:07
Nicolle 发表于 2015-6-7 21:35
  • 抓取数据
  • 这位教授厉害

    我运行了,出现下面错误提示,不知道啥原因

    temp1 <- grep('class="title" target="_blank"',webtotal)
    Error in grep("class=\"title\" target=\"_blank\"", webtotal) :
      object 'webtotal' not found

    20
    sssyunsheng 在职认证  发表于 2015-6-22 17:43:19
    豆瓣改版了,去掉了评价人数行,理论不变

    您需要登录后才可以回帖 登录 | 我要注册

    本版微信群
    加好友,备注cda
    拉您进交流群
    GMT+8, 2025-12-29 03:19