R初试爬取豆瓣电影-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 考研考博>>

考研

>>

R初试爬取豆瓣电影

R初试爬取豆瓣电影

发布:Tabl | 分类:考研

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

ls()rm(list=ls())library(xml2)library(rvest)library(stringr)for(jin0:9){if(j==0){url<-'https://movie.douban.com/top250'}else{url<-paste('https://movie.douban.com/top250?start=',25*j,'&filter',se ...
坛友互助群


扫码加入各岗位、行业、专业交流群


ls()
rm(list=ls())
library(xml2)
library(rvest)
library(stringr)
for (j in 0:9){
if(j==0){
url <- 'https://movie.douban.com/top250'
} else{
url <- paste('https://movie.douban.com/top250?start=',25*j,'&filter',sep="")
}
webpage <- read_html(url) #xml2
#排名
rank_data_html <- html_nodes(webpage,'em')#rvest
rank_data <- html_text(rank_data_html) #rvest
rank_data <- as.numeric(rank_data)
#电影名
title_data_html <- html_nodes(webpage,'.title:nth-child(1)')
title_data <- html_text(title_data_html)
#评分
score_data_html <- html_nodes(webpage,'.rating_num')
score_data <- html_text(score_data_html)
score_data <- as.numeric(score_data)
#评价人数
counter_data_html <- html_nodes(webpage,'.star:nth-child(2)')
counter_data <- html_text(counter_data_html)
counter_data <- unlist(str_extract_all(counter_data,"[0-9]+")) #stringr
a <- length(unlist(str_extract_all(counter_data,"[0-9]+")))
counter_data <- counter_data[seq(3,a,3)]
counter_data <- as.numeric(counter_data)
counter_data
#描述
description_data_html <- html_nodes(webpage,'.inq')
description_data <- html_text(description_data_html)
gener_data_html <- html_nodes(webpage,'.bd p:nth-child(1)')
gener_data <- html_text(gener_data_html)
gener_data <- gener_data[-1]
#年份
year_data <- NULL
for(i in 1:length(gener_data)){
year_data <- unlist(str_extract_all(gener_data,"[0-9]+"))[1]
}
#取导演数据
directors_data <- NULL
for(i in 1:length(gener_data)){
n1 <-str_trim(strsplit(gener_data,'\n')[[1]][2])
n2 <- regexpr("\\s{3}",n1)
directors_data <- substr(n1,5,n2-1)
}
#取主演数据
actors_data <- NULL
for(i in 1:length(gener_data)){
n1 <- regexpr("主",strsplit(gener_data,'\n')[[1]][2])
n2 <- nchar(strsplit(gener_data,'\n')[[1]][2])
actors_data <- substr(strsplit(gener_data,'\n')[[1]][2],n1+4,n2)
}
#取国家数据
country_data <- NULL
for(i in 1:length(gener_data)){
a<-strsplit(gener_data,'\n')[[1]][3]
n1 <- length(unlist(gregexpr("\\s\\/\\s",a)))
n2 <- unlist(gregexpr("\\s\\/\\s",a))[n1]
n3 <- unlist(gregexpr("\\s\\/\\s",a))[n1-1]
country_data <- substr(a,n3+3,n2-1)
}
#取类型
style_data <- NULL
for(i in 1:length(gener_data)){
a<-strsplit(gener_data,'\n')[[1]][3]
n1 <- length(unlist(gregexpr("\\s\\/\\s",a)))
n2 <- unlist(gregexpr("\\s\\/\\s",a))[n1]
n3 <- unlist(gregexpr("\\s\\/\\s",a))[n1-1]
style_data <- substr(a,n2+3,nchar(a))
}
if(j== 0){
rank =rank_data
title = title_data
score = score_data
description = description_data
year =year_data
country=country_data
directors=directors_data
actors=actors_data
style=style_data
counter =counter_data} else{
rank =c(rank,rank_data)
title = c(title,title_data)
score = c(score,score_data)
description = c(description,description_data)
year =c(year,year_data)
country=c(country,country_data)
directors=c(directors,directors_data)
actors=c(actors,actors_data)
style=c(style,style_data)
counter =c(counter,counter_data)
}}
for (i in 250:215){
description=description[i-1]
}
description[215] <- ""
film.data1 <- data.frame(排名 = rank,电影名 = title,评分=score,
简介 =description,上映年份 = year,
国家=country, 导演 = directors,
主演=actors,题材 = style,评价人数=counter)
write.csv(film.data1,"豆瓣电影top250.csv",row.names = FALSE)
扫码或添加微信号:坛友素质互助


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-6752194-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。