| 所在主题: | |
| 文件名: 数据质量评估报告_20260123.zip | |
| 资料下载链接地址: https://bbs.pinggu.org/a-8761757.html | |
| 附件大小: | |
|
一、数据概述
本数据集提供了中国地级市2003-2024年的数字治理词频指标数据。数字治理指标是通过分析地级市政府工作报告中数字治理相关关键词的词频,衡量地方政府对数字化转型、智慧城市建设、数字政府发展等议题关注程度的重要指标。 数字治理计算公式: 数字治理 = (数字治理关键词总词频 / 工作报告总词数) × 100 该指标反映了地级市政府对数字治理相关议题的关注程度,数值越高表示政府工作报告中涉及数字治理的内容占比越大,政府对数字化转型的重视程度越高。 二、数据来源 1. 原始数据来源: - 地级市政府工作报告词频数据(包含各类关键词词频统计) - 城市编码数据(包含城市名称与标准行政区划代码对照) 2. 数据处理: - 数据时间范围:2003年及以后 - 数据匹配方式:基于城市名称进行合并 - 关键词范围:城市大脑、大数据战略、电子签名、智慧城市、数字政府、智能政府等 三、文件结构说明 本数据包包含以下文件和文件夹: 【原始数据文件】 1. 地级市政府工作报告词频原始数据.dta- 政府工作报告词频原始数据(Stata格式) 2. 地级市政府工作报告词频原始数据.xlsx - 政府工作报告词频原始数据(Excel格式) 3. 城市编码数据.dta - 城市标准编码对照表 4. 上市公司基本信息数据.dta - 上市公司基本信息数据(辅助匹配用) 【计算代码文件】 5. 市级数字治理词频数据计算代码.do - Stata计算代码(兼容Stata 14+) 6. 市级数字治理词频数据计算代码.py - Python计算代码(跨平台) 【评估代码文件】 7. 市级数字治理词频数据评估代码.do - Stata评估代码(数据质量评估) 8. 市级数字治理词频数据评估代码.py - Python评估代码(数据质量评估) 【结果数据文件】 9. 计算结果.dta - Stata格式结果数据 10. 计算结果.xlsx - Excel格式结果数据 【参考文献】 11. 数字治理与城市经济韧性.pdf - 相关学术参考文献 【评估结果文件夹】 12. 数据质量评估报告_20260123/ - 数据质量评估结果(运行评估代码后生成) ├── 数据分布分析/ - 描述性统计、缺失值统计、相关系数等 ├── 分布图/ - 直方图、箱线图、核密度图、时间趋势图等 ├── 异常值检验/ - IQR法、Z-score法异常值检测结果 ├── 逻辑合理性验证/ - 时间序列连续性、指标范围检验等 ├── 稳健性测试/ - 缩尾处理对比、分时期对比等 └── 评估日志_20260123.log - 评估过程日志文件 【行业代码文件夹】 13. 行业代码/ - 行业分类标准文件(辅助参考) ├── GBT+4754-2017.pdf - 国家标准行业分类 ├── 《上市公司行业分类指引》.docx - 证监会行业分类指引 └── 行业代码对应.xlsx - 行业代码对照表 四、变量说明 【核心变量】 1. 城市 - 地级市名称(字符串型) 2. 城市编码 - 城市标准代码(6位行政区划代码) 3. 年份 - 年份(2003-2024) 4. 数字治理 - 数字治理指标(数值型,词频占比×100) 【词频统计变量】 5. 数字治理关键词总词频 - 数字治理相关关键词的总词频数 6. 工作报告总词数 - 政府工作报告的总词数 【数字治理关键词明细】(原始数据中包含) 包括但不限于以下关键词的词频统计: - 城市大脑 - 大数据战略 - 电子签名 - 智慧城市 - 数字政府 - 智能政府 - 等其他数字治理相关词汇 五、数据处理流程 【第一步:数据加载】 1. 加载地级市政府工作报告词频原始数据 2. 为数据集添加标签说明 【第二步:数据预处理】 1. 将变量名"地级市"重命名为"城市"以保持一致性 2. 确保年份变量是数值型 3. 仅保留2003年及之后的数据 【第三步:指标计算】 1. 计算数字治理关键词总词频: 数字治理关键词总词频 = 城市大脑 + 大数据战略 + ... + 智能政府 (使用egen rowtotal命令对所有关键词词频求和) 2. 计算数字治理指标: 数字治理 = (数字治理关键词总词频 / 工作报告总词数) × 100 【第四步:变量整理】 1. 调整变量顺序,将主要变量放在前面 2. 删除原始关键词词频变量(仅保留汇总结果) 3. 为主要变量添加变量标签 【第五步:匹配城市编码】 1. 与城市编码数据进行合并 2. 使用多对多匹配方式(m:m),按城市名称进行匹配 3. 删除仅在城市编码数据中存在的观测值 4. 调整变量顺序,将城市编码放在前面 5. 按城市编码和年份排序数据 【第六步:结果输出】 1. 保存为Stata格式(计算结果.dta) 2. 导出为Excel格式(计算结果.xlsx) 六、使用建议 1. 推荐使用文件: - Stata用户:直接使用 计算结果.dta - 其他用户:使用 计算结果.xlsx 2. 如需复现计算过程: - Stata用户:运行 市级数字治理词频数据计算代码.do - Python用户:运行 市级数字治理词频数据计算代码.py 3. 如需检验数据质量: - Stata用户:运行 市级数字治理词频数据评估代码.do - Python用户:运行 市级数字治理词频数据评估代码.py 4. 软件版本要求: - Stata 14.0 或更高版本(需安装mdesc、winsor2插件,代码会自动安装) - Python 3.7 或更高版本(需安装pandas、numpy、matplotlib、seaborn、scipy) 七、注意事项 1. 本数据为市级面板数据,使用时请注意面板结构特征。 2. "数字治理"指标为词频占比形式(已乘以100),理论范围约为0-100。 3. 部分城市部分年份可能存在数据缺失,使用前请检查数据完整性。 4. 本数据基于政府工作报告文本分析构建,反映的是地方政府对数字治理 议题的关注程度,而非城市实际数字化发展水平。 5. 若需与其他数据匹配,可通过"城市"或"城市编码"变量进行关联。 6. 数据唯一标识为"城市+年份"组合,请确保不存在重复观测。 |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明