楼主: peishenfei
9228 11

[问答] 请问怎么用r写一个爬虫,目的是爬取京东的全部评论 [推广有奖]

  • 0关注
  • 1粉丝

硕士生

3%

还不是VIP/贵宾

-

威望
0
论坛币
114 个
通用积分
0.0600
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
9801 点
帖子
64
精华
0
在线时间
122 小时
注册时间
2015-12-13
最后登录
2018-11-8

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
关键是这个ajax动态加载我不理解,如果只是抓取一页的评论,是可以的,下面是我的做法。

library(RCurl)  
library(XML)  
library(plyr)  
#伪造请求报头  
myheader=c("User-Agent"="Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",  
           "Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",  
           "Accept-Language"="en-us",  
           "Connection"="keep-alive",  
           "Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7"  
)


webpage = getURL('https://item.jd.com/12107414.html#comments-list',httpheader=myheader,.encoding='utf-8')  
pagetree = htmlParse(webpage,encoding='utf-8')  
comment = xpathSApply(pagetree,"//div[@class='comment-content']",xmlValue)  

comment = iconv(comment,"utf-8","LATIN1")  

comment


问题很明显,我只能得到10条评论。怎么获取全部评论,求解答(有例子更好)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Application connection Comments Language comment 京东

回帖推荐

小朝 发表于4楼  查看完整内容

今天有时间,简单写了个爬虫,爬取京东某个商品的评论,希望对你有用。
沙发
j610f2012 在职认证  发表于 2017-3-14 13:30:11 |只看作者 |坛友微信交流群
用python爬取,可以实现翻页
已有 1 人评分论坛币 收起 理由
admin_kefu + 10 热心帮助其他会员

总评分: 论坛币 + 10   查看全部评分

使用道具

藤椅
小朝 发表于 2017-3-15 10:10:16 |只看作者 |坛友微信交流群
http://club.jd.com/review/12107414-1-1-0.html
具体参考
http://blog.csdn.net/xiaoquantouer/article/details/51841016

使用道具

板凳
小朝 发表于 2017-3-18 18:56:45 |只看作者 |坛友微信交流群
今天有时间,简单写了个爬虫,爬取京东某个商品的评论,希望对你有用。
  1. library(RCurl)
  2. getcoments <- function(i){
  3.     productid <- '2967929'  #商品id
  4.     t1 <- 'http://club.jd.com/comment/productPageComments.action?productId='
  5.     t2 <- '&score=0&sortType=1&page='  #按时间顺序
  6.     t3 <- '&pageSize=1' #设置每页1条评论
  7.     url <-paste0(t1,productid,t2,i,t3)
  8.     web <- getURL(url, .encoding = 'gbk')
  9.     comments <- substr(web,regexpr("comments", web)+10,regexpr("referenceTime", web)-4)
  10.     content <- substr(comments,regexpr("content", comments)+10,regexpr("creationTime", comments)-4)
  11. }

  12. comment <- c()
  13. n <- 30 #爬取评论条数
  14. for(i in 0:(n-1)){
  15.     comment <- rbind(comment,getcoments(i))
  16.     print(i+1)
  17.     Sys.sleep(1)
  18. }
  19. write.csv(comment,'jingdongcomment.csv')
复制代码
已有 4 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
cheetahfly + 20 + 1 + 1 热心帮助其他会员
Howard55 + 1 + 1 + 1 精彩帖子
peishenfei + 1 + 1 + 1 精彩帖子
admin_kefu + 20 + 2 热心帮助其他会员

总评分: 论坛币 + 40  学术水平 + 3  热心指数 + 5  信用等级 + 2   查看全部评分

使用道具

报纸
一诺9257 发表于 2017-3-19 22:59:41 |只看作者 |坛友微信交流群
学习。谢谢!

使用道具

地板
peishenfei 发表于 2017-3-21 20:48:07 |只看作者 |坛友微信交流群
小朝 发表于 2017-3-18 18:56
今天有时间,简单写了个爬虫,爬取京东某个商品的评论,希望对你有用。
谢谢,我试试,另外我今天又碰到一个新的问题,希望你帮忙
http://ccpl.psych.ac.cn/textmind/
这个网站是文本分析用的,我输入一些文本,他返回给我一些信息,我要存起来。
(这个网站提供了软件下载,但是软件分析时总是会报错,即使不错结果也和网页的结果不同)
我现在有800个文本要分析(不能一块贴进去),我想能不能用程序帮我贴上去,并且抓取相应的结果存起来。谢谢(或者提示下我应该搜什么关键词才能查到这类的文章,我不会python,用r可以办到不?)

使用道具

7
风之将尽 学生认证  发表于 2017-3-22 23:02:35 |只看作者 |坛友微信交流群
也是对文本分析感兴趣,哥们你用的什么情感词典?

使用道具

8
dreamtree14 发表于 2017-5-16 15:55:25 |只看作者 |坛友微信交流群
小朝 发表于 2017-3-18 18:56
今天有时间,简单写了个爬虫,爬取京东某个商品的评论,希望对你有用。
谢谢楼主。想问一下评论网址代码中参数t1是怎么获取的呢

使用道具

9
ZhandaYang 发表于 2017-5-16 16:30:04 |只看作者 |坛友微信交流群
peishenfei 发表于 2017-3-21 20:48
谢谢,我试试,另外我今天又碰到一个新的问题,希望你帮忙
http://ccpl.psych.ac.cn/textmind/
这个网站 ...
用R的RSelenium包

使用道具

10
yefaqiang402 发表于 2017-12-30 18:09:31 |只看作者 |坛友微信交流群
小朝 发表于 2017-3-18 18:56
今天有时间,简单写了个爬虫,爬取京东某个商品的评论,希望对你有用。
你好,你的案例爬取京东某个商品的评论最多只能爬取100条,能不多爬取更多的评论呢?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-20 10:39