人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › 请问 python 爬虫如何获取表格数据呢？

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 下一页

发帖

楼主: lxy444

10084 10

[问答] 请问 python 爬虫如何获取表格数据呢？ [推广有奖]

0关注
7粉丝

副教授

83%

还不是VIP/贵宾

威望: 0 级
论坛币: 49235 个
通用积分: 462.6689
学术水平: 22 点
热心指数: 22 点
信用等级: 19 点
经验: 210475 点
帖子: 354
精华: 0
在线时间: 1682 小时
注册时间: 2014-2-12
最后登录: 2024-4-23

楼主

lxy444

发表于 2016-4-11 22:01:59 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

我现在想用 python 爬取校友捐赠的信息做一些简单的数据分析，网页在这里：

http://alumni.xjtu.edu.cn/donation/namelist

内容示例如下：

上面有很多页，比如我想爬取前100页的数据，并存入到一个 Excel 表格中，请问该如何做呢？希望能给出建议或者类似的 python 代码，非常感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏4 回帖

关键词：python 表格数据 Nation EXCEL ATION python 爬虫表格

相关帖子

使用道具举报

沙发

周小淦 发表于 2016-4-11 22:16:42 |只看作者 |坛友微信交流群

我也不太会，不过应该用url库吧，你试试自己学下Python吧。或者淘宝找人吧。你要不急我月底可以帮你做，哈哈。我也在自学，学艺不精，帮不上什么。

使用道具举报

藤椅

渲潇依旧 发表于 2016-5-17 14:15:48 |只看作者 |坛友微信交流群

还想做的话，私信我

使用道具举报

板凳

lxy444

发表于 2016-5-18 08:23:37 |只看作者 |坛友微信交流群

周小淦发表于 2016-4-11 22:16
我也不太会，不过应该用url库吧，你试试自己学下Python吧。或者淘宝找人吧。你要不急我月底可以帮你做，哈哈 ...

嗯，可以共同交流，一起学习

使用道具举报

报纸

LIXUANHANK

发表于 2016-5-18 08:41:58 |只看作者 |坛友微信交流群

不错，我也想学

使用道具举报

地板

渲潇依旧 发表于 2016-5-18 18:42:49 |只看作者 |坛友微信交流群

我写了个程序，会在楼下贴出来，时间原因只测试了下载2页纸，没有问题，100页应该问题也不大

使用道具举报

7楼

渲潇依旧 发表于 2016-5-18 18:43:25 |只看作者 |坛友微信交流群

# -*- coding: utf-8 -*-
import requests
import sys
from lxml import etree
import pandas as pd
from multiprocessing.dummy import Pool as ThreadPool

reload(sys)
sys.setdefaultencoding("utf-8")

Name=[]
Money=[]
Project=[]
Date=[]
Style=[]
User_type=[]
page=[]
def spider(url):
html=requests.get(url).text
html=html.encode("utf-8")
selector = etree.HTML(html)
field=selector.xpath('//table[@class="table table-striped table-bordered"]')[0]
content=field.xpath('tr')
for each in content:
      list=each.xpath('td')
      name=list[0][0]
      name=name.xpath('string(.)').replace('\t','').replace(' ','')
      money=list[1].xpath('string(.)').replace('\t','').encode("utf-8")
      money=money.split()[0]
      project=list[2][0]
      project=project.xpath('string(.)').replace('\t','').replace(' ','')
      date=list[3][0]
      date=date.xpath('string(.)').replace('\t','').replace(' ','')
      style=list[4][0]
      style=style.xpath('string(.)').replace('\t','').replace(' ','')
      user_type=list[5][0]
      user_type=user_type.xpath('string(.)').replace('\t','').replace(' ','')
      Name.append(name)
      Money.append(money)
      Project.append(project)
      Date.append(date)
      Style.append(style)
      User_type.append(user_type)
for i in range(1,101):
newpage='http://alumni.xjtu.edu.cn/donation/namelist?pageNo='+str(i)+'&pageSize=10&billnum=&donateUserName=&orderWay=&donationid=0'
page.append(newpage)
# 我的电脑是双核，所以下面是2，根据自己电脑情况来定，也可以把下面一句删了，运行会慢一点
pool = ThreadPool(2)
pool.map(spider,page)

data={'Name':Name,'Money':Money,'Project':Project,'Date':Date,'Style':Style,'User_type':User_type}
data=pd.DataFrame(data)
data.to_csv('donation.csv',encoding='gbk')

已有 2 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
LIXUANHANK		+ 5	+ 5	+ 5	精彩帖子
lxy444	+ 5	+ 2	+ 2	+ 2	精彩帖子

总评分: 论坛币 + 5 学术水平 + 7 热心指数 + 7 信用等级 + 7 查看全部评分

使用道具举报

8楼

渲潇依旧 发表于 2016-5-18 18:46:28 |只看作者 |坛友微信交流群

结果跟附件里差不多

41B7.tmp.jpg (18.63 KB)

41B7.tmp.jpg

已有 1 人评分	学术水平	热心指数	信用等级	收起理由
tomkins	+ 1	+ 1	+ 1	精彩帖子

总评分: 学术水平 + 1 热心指数 + 1 信用等级 + 1 查看全部评分

使用道具举报

9楼

lxy444

发表于 2016-5-18 19:40:22 |只看作者 |坛友微信交流群

渲潇依旧发表于 2016-5-18 18:43
# -*- coding: utf-8 -*-
import requests
import sys

非常感谢，好好学习一下你的代码！

使用道具举报

10楼

0277/cy 发表于 2016-7-5 22:46:48 |只看作者 |坛友微信交流群

请问 name=list[0][0] 这里使用了两次[ ][ ]，下面的程序里第二个[ ]一直是0，好像没有用到？

使用道具举报

返回列表

12 下一页

发帖

本版微信群

加好友,备注cda
拉您进交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[问答] 请问 python 爬虫如何获取表格数据呢？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

初级热心勋章

初级学术勋章

初级信用勋章

中级热心勋章

中级学术勋章

高级学术勋章

高级热心勋章

中级信用勋章

本版微信群

[问答] 请问 python 爬虫如何获取表格数据呢？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

初级热心勋章

初级学术勋章

初级信用勋章

中级热心勋章

中级学术勋章

高级学术勋章

高级热心勋章

中级信用勋章

本版微信群

扫码加我拉你入群