人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › 现金悬赏，帮忙爬一个网站表格数据

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: Imasasor

2166 7

[问答] 现金悬赏，帮忙爬一个网站表格数据 [推广有奖]

1关注
64粉丝

VIP

学科带头人

34%

还不是VIP/贵宾

TA的文库 其他...

超哥喜欢的文章

威望: 1 级
论坛币: 47033 个
通用积分: 3.1376
学术水平: 238 点
热心指数: 246 点
信用等级: 231 点
经验: 36380 点
帖子: 866
精华: 3
在线时间: 2234 小时
注册时间: 2012-7-4
最后登录: 2023-9-20

楼主

Imasasor 发表于 2017-10-30 19:16:50 |只看作者 |坛友微信交流群|倒序 |AI写论文

1800论坛币

求高手帮忙用python，最好别用scrapy，用request+lxml或其它爬取一个网站空气质量数据。https://www.aqistudy.cn/historydata/daydata.php?city=%E6%88%90%E9%83%BD&month=201709。
该网页只能用chrome打开，其它网站打不开，而且chrome打开源码中没有想要的数据，不知道怎么办。
程序写的好的话加我好友，我再给100元红包答谢，非常感谢。

最佳答案

gjinwei 查看完整内容

分享0 收藏1 回帖

关键词：表格数据 History Request Chrome scrapy

欢迎加入亚太地区第一R&Python数据挖掘群: 251548215；

使用道具举报

沙发

gjinwei 发表于 2017-10-30 19:16:51 |只看作者 |坛友微信交流群

我大致贴个代码，具体的自己去完善吧（列名，城市循环、月份循环），数据我现在直接导出到excel中了，也可以直接入库，调df.to_sql就可以了，不过要加引擎(form sqlalchemy import create_engine engine=create_engine(url))
from selenium import webdriver
import pandas as pd
dr = webdriver.Chrome()

dr.get('https://www.aqistudy.cn/historydata/daydata.php?city=%E6%88%90%E9%83%BD&month=201709')

trs =[]
for tr in dr.find_elements_by_css_selector('tr')[1:]:
tds=[]
for td in tr.find_elements_by_css_selector('td'):
tds.append(td.text)
trs.append(tds)
df = pd.DataFrame(trs)
df.to_csv('201709_成都.csv')
附上效果
QQ截图20171031230619.png

已有 1 人评分	经验	收起理由
残阳_等待	+ 60	精彩帖子

总评分: 经验 + 60 查看全部评分

使用道具举报

藤椅

fengxingliulizi 发表于 2017-10-31 14:37:30 |只看作者 |坛友微信交流群

我看了一下，没搞出来，如果楼主搞出来的，跟我说说。说三种解决方案
1、用selenium
2、换网站
3、用itchat通过微信公众号调

已有 1 人评分	经验	收起理由
残阳_等待	+ 20	精彩帖子

总评分: 经验 + 20 查看全部评分

使用道具举报

板凳

deem

发表于 2017-11-1 11:52:17 |只看作者 |坛友微信交流群

gjinwei 发表于 2017-10-31 23:07
我大致贴个代码，具体的自己去完善吧（列名，城市循环、月份循环），数据我现在直接导出到excel中了，也可以 ...

厉害啊学习了

使用道具举报

报纸

deem

发表于 2017-11-1 13:31:47 |只看作者 |坛友微信交流群

@gjinwei 的代码已经很好了，但是在爬大量网页时候应该用PhantomJS作为模拟浏览器。另外，我做了一点修改，能爬取多个城市多年的数据。楼主需要做的准备工作是配置好PhantomJS和selenium。

# -*- coding: utf-8 -*-
from selenium import webdriver
import pandas as pd
from urllib.parse import quote
city = ['成都', '杭州']
city_encode = [quote(i) for i in city]
# dr = webdriver.Chrome()
df = pd.DataFrame()
dr = webdriver.PhantomJS('/Applications/phantomjs/bin/phantomjs')
file_list = [str(year) + '{:0>2d}'.format(mon) for mon in range(1, 10) for year in range(2016, 2018)]
for i in range(len(city)):
for file in file_list:
dr.get('https://www.aqistudy.cn/historydata/daydata.php?city=' + city_encode[i]+ '&month=' + file)
trs =[]
for tr in dr.find_elements_by_css_selector('tr')[1:]:
tds=[]
for td in tr.find_elements_by_css_selector('td'):
tds.append(td.text)
trs.append(tds)
temp_df = pd.DataFrame(trs)
temp_df['city'] = city[i]
df = df.append(temp_df)

复制代码

已有 1 人评分	经验	收起理由
残阳_等待	+ 60	精彩帖子

总评分: 经验 + 60 查看全部评分

使用道具举报

地板

zjxplq 发表于 2017-11-1 16:00:30 |只看作者 |坛友微信交流群

用excel 2016中的数据查询，很方便搞定，只是一个网页要点几下

已有 1 人评分	经验	收起理由
残阳_等待	+ 20	精彩帖子

总评分: 经验 + 20 查看全部评分

使用道具举报

7楼

gjinwei 发表于 2017-11-2 10:31:13 |只看作者 |坛友微信交流群

给个可用的版本，用了多线程，但要加载js,效率不高，解析时cpu占用比较高，线程数要根据自己的电脑来控制。用phantomjs也快不了多少，有兴趣可以尝试下。

# -*- coding:UTF-8 -*-
from threading import Thread
from queue import Queue
from datetime import datetime
from sqlalchemy import create_engine,String,Integer,DATE
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import pandas as pd
import time
engine = create_engine('sqlite:///PM25.db')
cities = ["北京", "上海", "天津", "重庆", "杭州", "哈尔滨", "长春", "沈阳", "石家庄", "太原", "西安", "济南", "乌鲁木齐", "拉萨", "西宁", "兰州", "银川", "郑州",
"南京", "武汉", "合肥", "福州", "南昌", "长沙", "贵阳", "成都", "广州", "昆明", "南宁", "深圳"]
columns =['日期','AQI','质量等级','PM2.5','PM10','SO2','CO','NO2','O3_8h']
dtypes={
"日期":String(12),
"AQI":Integer,
"质量等级":String(10),
"PM2.5":Integer,
"PM10":Integer,
"SO2":Integer,
"CO":Integer,
"NO2":Integer,
'O3_8h':Integer
}
def prepare_month(start,end,fmt='%Y%m'):
date_range = pd.date_range(start=start,end=end,freq='M')
months = [datetime.strftime(date, fmt) for date in date_range]
return months
def get_data(tasks):
# For chrome
chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option("prefs",{"profile.managed_default_content_settings.images":2})
dr = webdriver.Chrome(chrome_options=chrome_options)
# # For phantomjs
# dcap = dict(DesiredCapabilities.PHANTOMJS)
# dcap['phantomjs.page.settings.loadImages']=False
# dr=webdriver.PhantomJS(desired_capabilities=dcap)
while not tasks.empty():
city,month = tasks.get()
dr.get('https://www.aqistudy.cn/historydata/daydata.php?city={0}&month={1}'.format(city, month))
time.sleep(2)
trs = []
for tr in dr.find_elements_by_css_selector('tr')[1:]:
tds = []
for td in tr.find_elements_by_css_selector('td'):
tds.append(td.text)
trs.append(tds)
df = pd.DataFrame(trs,columns=columns)
df['city']=city
df.to_sql("jiance", engine, if_exists='append', index=False,dtype=dtypes)
dr.quit()
if __name__ == '__main__':
threads=[]
tasks=Queue()
months=prepare_month(start='2013-12-1',end='2017-11-1')
for city in cities:
for month in months:
tasks.put((city,month))
for i in range(5):
thread=Thread(target=get_data,args=(tasks,))
threads.append(thread)
thread.start()
for thread in threads:
thread.join()