政府工作报告文本数据覆盖国务院、省级政府、市级政府在内的三级政府部门,代表了政府在各个阶段的工作情况和成果,是极有价值的文本分析数据;
本次将报告原始文本整理成了Excel面板数据,时间跨度为中央(1954-2023)、省级(2002-2023)、市级(2002-2023)。
一、数据介绍
数据名称:中国全国中央政府工作报告各省级地级市政府工作报告原文-Excel文本长度词频总数
数据年份:中央(1954-2023)、省级(2002-2023)、市级(2002-2023)
样本范围:中央、全国各省、城市地级市
数据来源:地方政府网
数据格式:Excel面板格式
提供打包购买合集链接及分别购买链接:
二、整理说明
从地方政府网爬取工作报告原始文件
将报告文本整理为面板数据
去除停顿词,利用python的jieba库进行精确模式和全模式分词,统计词频和保留中英文、数字,统计全文文本总长度,保存原始文本、文本长度、词频总数。
三、指标说明
一共8个指标,如下
年份 | 地区等级 | 地区 |
报告全文 | 文本总长度(字) | 仅中英文-文本总长度(字) |
文本总词频-全模式(个) | 文本总词频-精确模式(个) |
1.中央政府工作报告1964-2023年:
2.全国31省份(含直辖市)省级政府工作报告2002-2023年:
3.全国285个地级市城市政府工作报告2002-2023年:
含全国285地级市城市,注意:地级市城市政府工作报告存在客观披露缺失(全网都是),并非所有地级市都有2002-2023年齐全报告!!
为避免交易双方理解歧义,现将每年含有的数据量列明如下,介意勿买,谢谢!(如:2002年,仅有4个地级市有政府工作报告,2023年有285个地级市有政府工作报告。)
年份 | 当年含工作报告的地级市数量 |
2002 | 4 |
2003 | 166 |
2004 | 187 |
2005 | 211 |
2006 | 229 |
2007 | 239 |
2008 | 249 |
2009 | 253 |
2010 | 262 |
2011 | 266 |
2012 | 273 |
2013 | 265 |
2014 | 278 |
2015 | 280 |
2016 | 284 |
2017 | 282 |
2018 | 282 |
2019 | 286 |
2020 | 286 |
2021 | 286 |
2022 | 285 |
2023 | 285 |
总计 | 5438 |