人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › 请问怎么用r写一个爬虫，目的是爬取京东的全部评论

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 下一页

发帖

楼主: peishenfei

9228 11

[问答] 请问怎么用r写一个爬虫，目的是爬取京东的全部评论 [推广有奖]

0关注
1粉丝

硕士生

还不是VIP/贵宾

威望: 0 级
论坛币: 114 个
通用积分: 0.0600
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 9801 点
帖子: 64
精华: 0
在线时间: 122 小时
注册时间: 2015-12-13
最后登录: 2018-11-8

楼主

peishenfei 发表于 2017-3-14 10:49:40 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

关键是这个ajax动态加载我不理解，如果只是抓取一页的评论，是可以的，下面是我的做法。

library(RCurl)
library(XML)
library(plyr)
#伪造请求报头
myheader=c("User-Agent"="Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",
         "Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
         "Accept-Language"="en-us",
         "Connection"="keep-alive",
         "Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7"
)

webpage = getURL('https://item.jd.com/12107414.html#comments-list',httpheader=myheader,.encoding='utf-8')
pagetree = htmlParse(webpage,encoding='utf-8')
comment = xpathSApply(pagetree,"//div[@class='comment-content']",xmlValue)

comment = iconv(comment,"utf-8","LATIN1")

comment

问题很明显，我只能得到10条评论。怎么获取全部评论，求解答（有例子更好）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏11 回帖

关键词：Application connection Comments Language comment 京东

回帖推荐

小朝发表于4楼查看完整内容

今天有时间，简单写了个爬虫，爬取京东某个商品的评论，希望对你有用。

使用道具举报

沙发

j610f2012

发表于 2017-3-14 13:30:11 |只看作者 |坛友微信交流群

用python爬取，可以实现翻页

已有 1 人评分	论坛币	收起理由
admin_kefu	+ 10	热心帮助其他会员

总评分: 论坛币 + 10 查看全部评分

使用道具举报

藤椅

小朝 发表于 2017-3-15 10:10:16 |只看作者 |坛友微信交流群

http://club.jd.com/review/12107414-1-1-0.html
具体参考
http://blog.csdn.net/xiaoquantouer/article/details/51841016

使用道具举报

板凳

小朝 发表于 2017-3-18 18:56:45 |只看作者 |坛友微信交流群

今天有时间，简单写了个爬虫，爬取京东某个商品的评论，希望对你有用。

library(RCurl)
getcoments <- function(i){
productid <- '2967929' #商品id
t1 <- 'http://club.jd.com/comment/productPageComments.action?productId='
t2 <- '&score=0&sortType=1&page=' #按时间顺序
t3 <- '&pageSize=1' #设置每页1条评论
url <-paste0(t1,productid,t2,i,t3)
web <- getURL(url, .encoding = 'gbk')
comments <- substr(web,regexpr("comments", web)+10,regexpr("referenceTime", web)-4)
content <- substr(comments,regexpr("content", comments)+10,regexpr("creationTime", comments)-4)
}
comment <- c()
n <- 30 #爬取评论条数
for(i in 0:(n-1)){
comment <- rbind(comment,getcoments(i))
print(i+1)
Sys.sleep(1)
}
write.csv(comment,'jingdongcomment.csv')

复制代码

已有 4 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
cheetahfly	+ 20	+ 1	+ 1		热心帮助其他会员
Howard55		+ 1	+ 1	+ 1	精彩帖子
peishenfei		+ 1	+ 1	+ 1	精彩帖子
admin_kefu	+ 20		+ 2		热心帮助其他会员

总评分: 论坛币 + 40 学术水平 + 3 热心指数 + 5 信用等级 + 2 查看全部评分

使用道具举报

报纸

一诺9257 发表于 2017-3-19 22:59:41 |只看作者 |坛友微信交流群

学习。谢谢！

使用道具举报

地板

peishenfei 发表于 2017-3-21 20:48:07 |只看作者 |坛友微信交流群

小朝发表于 2017-3-18 18:56
今天有时间，简单写了个爬虫，爬取京东某个商品的评论，希望对你有用。

谢谢，我试试，另外我今天又碰到一个新的问题，希望你帮忙
http://ccpl.psych.ac.cn/textmind/
这个网站是文本分析用的，我输入一些文本，他返回给我一些信息，我要存起来。
（这个网站提供了软件下载，但是软件分析时总是会报错，即使不错结果也和网页的结果不同）
我现在有800个文本要分析（不能一块贴进去），我想能不能用程序帮我贴上去，并且抓取相应的结果存起来。谢谢（或者提示下我应该搜什么关键词才能查到这类的文章，我不会python，用r可以办到不？）

使用道具举报