从国家统计局网页,http://data.stats.gov.cn/easyquery.htm?cn=A01,
查询月度等历史各指标 数据。
可下载的格式有:Excel,CSV,pdf,XML。
pdf 不用说,很难用R 读取。
Excel,CSV ,因在表前、表后有各种说明,需打开,明确表前表后的情况,也烦。
XML 是标准化。。世界主要统计部门,也趋于用此格式作为标准格式。
下面,以中国制造业采购经理指数为例,列出下载为“magerIndustry.xml“ 读入R 中为tibble 表的程序:
library(tidyverse)
library(xlm2)
library(rvest)
##############################################################
magInda<-read_xml("magerIndustry.xml",encoding="GBK")%>%
html_nodes("field")%>%
html_text()%>%
matrix(ncol=3,byrow=TRUE)%>%as_tibble()%>%
mutate(V3=as.double(V3))%>%
spread(key=V2,value=V3)%>%
rename("年月"=V1)
############################################################
结果是:
str(magInda)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 151 obs. of 15 variables:
$ 年月 : chr "2005年10月" "2005年11月" "2005年12月" "2005年1月" ...
$ 采购量指数(%) : num 58.4 55.6 57 59 60 62.8 61 54.1 53.2 51.3 ...
$ 产成品库存指数(%) : num 46.2 44.8 44.7 46.6 47.4 46.9 46.5 45.8 48.1 46.6 ...
$ 出厂价格指数(%) : num NA NA NA NA NA NA NA NA NA NA ...
$ 从业人员指数(%) : num 50.1 50.9 50.4 48.5 49.7 51.7 51.8 50 49.9 50.8 ...
$ 供应商配送时间指数(%) : num 52 52.4 52.8 50.7 50.6 50.2 50.4 50.5 50.7 51.7 ...
$ 进口指数(%) : num 52 51.7 50.9 54.3 55.2 56.9 54.2 49.4 49.8 50.9 ...
$ 生产经营活动预期指数(%) : num NA NA NA NA NA NA NA NA NA NA ...
$ 生产指数(%) : num 59.7 58.8 58.7 57.6 55.6 65.2 62.7 57 55.7 53.3 ...
$ 新出口订单指数(%) : num 55.1 57.6 56.4 58.3 59.9 63.9 60.3 58.2 56.1 52.8 ...
$ 新订单指数(%) : num 58.1 58 58.9 60.7 61.5 63.5 61.3 55.6 53.4 53.2 ...
$ 原材料库存指数(%) : num 45.5 46.4 48.1 50.1 47.8 47.7 48.4 45.2 44.2 43.7 ...
$ 在手订单指数(%) : num 48.4 48.1 48.8 46.6 49.8 50.6 50.9 47.9 48.4 46.4 ...
$ 制造业采购经理指数(%) : num 54.1 54.1 54.3 54.7 54.5 57.9 56.7 52.9 51.7 51.1 ...
$ 主要原材料购进价格指数(%): num 50.8 47.9 49.5 63.7 64.8 71.5 65.2 53.5 49.8 50.6 ...
>