人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › 爬虫大法：日度空气质量数据的爬取

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

返回列表

发帖

楼主: 江河1703

1652 0

爬虫大法：日度空气质量数据的爬取 [推广有奖]

0关注
32粉丝

博士生

32%

还不是VIP/贵宾

威望: 0 级
论坛币: 11134 个
通用积分: 74.1723
学术水平: 36 点
热心指数: 38 点
信用等级: 36 点
经验: 7596 点
帖子: 81
精华: 0
在线时间: 365 小时
注册时间: 2019-1-12
最后登录: 2024-2-8

楼主

江河1703

发表于 2020-5-3 15:11:50 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

之前给大家分享了月度空气质量数据的爬虫程序，详见“爬虫大法：空气质量数据的爬取”一文。事实上，中国空气质量在线监测分析平台（https://www.aqistudy.cn/historydata/）也提供了全国384个城市和地区的日度空气质量数据，只是爬取下来程序更为复杂，耗费时间也会更长。

这个爬虫程序的思路还是先爬取城市名，构造网址，然后再通过网址爬取各个城市的日度空气质量数据。这个网站日度数据网址命名规则是这样的：

https://www.aqistudy.cn/historydata/daydata.php?city=北京&month=2015-01

https://www.aqistudy.cn/historydata/daydata.php?city=北京&month=2015-02

……

https://www.aqistudy.cn/historydata/daydata.php?city=上海&month=2015-01

https://www.aqistudy.cn/historydata/daydata.php?city=上海&month=2015-02

其实，很容易分解，就是初始网址+城市名+月份。有了思路之后，代码都是浮云了！飘了飘了！

import requests
from lxml import etree
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.204 Safari/537.36'
}
url = "https://www.aqistudy.cn/historydata/"
response = requests.get(url, headers=headers)
text = response.content.decode('utf-8')
html = etree.HTML(text)
city_set = list()
citys = html.xpath("//div[@class='all']/div/ul")
for city in citys:
messages = city.xpath(".//li")
for message in messages:
city_name = message.xpath(".//a/text()")
city_name = "".join(city_name)
# print(city_name)
city_set.append(city_name)
print(city_set)
import time
from urllib import parse
import pandas as pd
from selenium import webdriver
driver = webdriver.PhantomJS(r'D:/爬虫下载/phantomjs-2.1.1-windows\bin\phantomjs.exe')
base_url = 'https://www.aqistudy.cn/historydata/daydata.php?city='
def get_month_set():
month_set = list()
# for i in range(1, 10):
# month_set.append(('2014-0%s' % i))
# for i in range(10, 13):
# month_set.append(('2014-%s' % i))
for i in range(1, 10):
month_set.append(('2015-0%s' % i))
for i in range(10, 13):
month_set.append(('2015-%s' % i))
for i in range(1, 10):
month_set.append(('2016-0%s' % i))
for i in range(10, 13):
month_set.append(('2016-%s' % i))
for i in range(1, 10):
month_set.append(('2017-0%s' % i))
for i in range(10, 13):
month_set.append(('2017-%s' % i))
for i in range(1, 10):
month_set.append(('2018-0%s' % i))
for i in range(10, 13):
month_set.append(('2018-%s' % i))
for i in range(1, 10):
month_set.append(('2019-0%s' % i))
for i in range(10, 13):
month_set.append(('2019-%s' % i))
for i in range(1, 5):
month_set.append(('2020-0%s' % i))
return month_set
month_set = get_month_set()
# print(month_set)
for k in range(0,len(city_set)):
city = city_set[k]
# fp = open(r'D:\爬虫下载\日空气质量\%s.csv'% (str(city)), 'a')
# fp.write('%s,%s,%s,%s,%s,%s,%s,%s,%s,%s\n'%('序号','日期','AQI','grade','PM2.5','PM10','SO2','CO','NO2','O3'))#表头
# fp.close()
for i in range(len(month_set)):
str_month = month_set[i]
weburl = ('%s%s&month=%s' % (base_url, parse.quote(city), str_month))
print(city,str_month)
driver.get(weburl)
time.sleep(3)
dfs = pd.read_html(driver.page_source,header=0)[0]
# time.sleep(0.5)#防止页面一带而过，爬不到内容
dfs.to_csv(r'D:\爬虫下载\日空气质量\%s.csv' % (str(city)), mode='a+', encoding='utf_8_sig')
driver.quit()
print ('爬虫已经爬完！请检测！')

复制代码

有需要本期爬虫代码和爬取下来的日度空气质量数据的朋友，可以在公众号【功夫计量经济学】后台回复“AQI”，即可看到获取方式。为了感谢各位朋友的支持，月度空气质量数据的下载已经放开，不再需要转发，后台回复”PM2.5”即可看到下载链接。

数据说明：

（1）这次爬取的是384个城市和地区2015年1月1日到2020年4月30日的日度空气质量数据。但是，像有些地区比如西藏林芝、日喀则是2017年1月1日之后才有数据的。

（2）因为网站上实际上没有保亭、白沙、昌江、澄迈、儋州、定安、东方、乐东、临高、陵水、琼海、琼中、屯昌、万宁、文昌和五指山这16个城市和地区的空气质量数据，所以这些城市和地区爬取下来的会是空白，最终一共只有368个城市和地区的数据。

（3）这个网站事实上也存在数据缺失的问题，有些城市有些月份、有些日期是没有数据的。当然，缺失的相当少。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏3 回帖

爬虫大法：日度空气质量数据的爬取 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

爬虫大法：日度空气质量数据的爬取 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群