| 所在主题: | |
| 文件名: 数据质量评估报告_20260122.zip | |
| 资料下载链接地址: https://bbs.pinggu.org/a-8761572.html | |
| 附件大小: | |
|
一、数据简介
-------------------------------------------------------------------------------- 本数据集用于衡量各省份对数字经济发展的重视程度,并将省级指标匹配到A股上市 公司层面。通过分析各省政府工作报告中数字经济相关关键词的词频占比,构建了 "数字经济发展重视程度"指标。 数据来源: 1. 各省政府工作报告词频统计数据 2. 上市公司行业与地区信息数据 3. 上市公司基本信息数据(含公司详细信息、多级行业分类等) 时间范围:2002年 - 2024年 空间范围:中国31个盛自治区、直辖市 二、核心指标说明 -------------------------------------------------------------------------------- 【指标名称】数字经济发展重视程度 【计算公式】 数字经济发展重视程度 = (数字经济关键词总词频 / 工作报告总词数) × 100 【关键词列表】(共6个) 1. 数字化 2. 人工智能 3. 区块链 4. 云计算 5. 大数据 6. 物联网 【指标含义】 该指标以百分比形式表示,数值越大表明该省份政府对数字经济发展的重视程度越高。 指标通过政府工作报告这一官方政策文件反映地方政府的政策导向和关注重点。 三、数据文件说明 -------------------------------------------------------------------------------- 本数据包包含以下文件: 【原始数据文件】 1. 数字经济关键词词频原始数据.dta - 内容:各省历年政府工作报告中数字经济相关关键词的词频统计 - 变量:省份/地级市、年份、各关键词词频、工作报告总词数 2. 省份编码对照表.dta - 内容:省份名称与标准省份代码的对照表 - 用途:用于省份名称标准化和排序 3. 上市公司行业与地区信息数据.dta - 内容:A股上市公司的基本信息和所属地区 - 变量:证券代码、证券简称、所属省份、所属省份代码、行业代码、行业名称等 4. 行业代码/上市公司基本信息数据.dta - 内容:上市公司的详细基本信息 - 变量:公司名称、上市日期、多级行业分类、经营范围、注册资本等 【计算结果文件】 1. 计算结果省级版本.dta / .xlsx - 内容:省级数字经济发展重视程度数据 - 观测单位:省份-年份 - 主要变量: · 省份:省份名称 · 省份编码:标准省份代码 · 年份:数据年份(2002-2024) · 数字经济发展重视程度:核心指标(百分比形式) · 数字经济关键词总词频:六个关键词词频之和 · 工作报告总词数:当年政府工作报告的总词数 2. 计算结果匹配上市公司版本.dta / .xlsx - 内容:上市公司层面的数字经济发展重视程度数据 - 观测单位:公司-年份 - 主要变量: · 证券代码:上市公司证券代码 · 证券简称:上市公司证券简称 · 公司名称:上市公司全称 · 公司中文简称:公司中文简称 · 公司英文名称:公司英文全称 · 所属省份:公司所属省份 · 所属省份代码:省份标准代码 · 年份:数据年份(2002-2024) · 数字经济发展重视程度:核心指标(百分比形式) · 数字经济关键词总词频:六个关键词词频之和 · 工作报告总词数:当年政府工作报告的总词数 · 行业代码/行业名称:证监会行业分类代码及名称 · 行业代码A-D/行业名称A-D:多级行业分类 · 上市日期:公司上市日期 · 股票类型:A股/B股等 · ABH股交叉码:交叉上市代码 · 成立日期:公司成立日期 · 退市日期:退市日期(如适用) · 注册资本:公司注册资本 · 经营范围:公司经营范围描述 · 公司沿革:公司历史沿革 【代码文件】 1. 上市公司数字经济发展重视程度数据计算代码.do - Stata版本计算代码 2. 上市公司数字经济发展重视程度数据计算代码.py - Python版本计算代码 3. 上市公司数字经济发展重视程度数据评估代码.do - Stata版本数据质量评估代码 4. 上市公司数字经济发展重视程度数据评估代码.py - Python版本数据质量评估代码 【评估报告】 数据质量评估报告_YYYYMMDD/ - 数据分布分析/:描述性统计、年度统计、省份统计、行业统计 - 分布图/:直方图、箱线图、核密度图、时间趋势图 - 异常值检验/:IQR法、Z-score法异常值检测结果 - 逻辑合理性验证/:时间序列连续性、指标范围检验 - 稳健性测试/:不同样本期、不同处理方式对比 四、变量详细说明(上市公司版本) -------------------------------------------------------------------------------- 变量名称 变量类型 变量说明 -------------------------------------------------------------------------- 证券代码 字符串 6位数字的股票代码 证券简称 字符串 上市公司股票简称 公司名称 字符串 上市公司注册全称 公司中文简称 字符串 公司中文简称 公司英文名称 字符串 公司英文注册名称 所属省份 字符串 公司注册所在省份 所属省份代码 数值 省份标准代码 年份 数值 数据年份(2002-2024) 数字经济发展重视程度 数值 核心指标,百分比形式 数字经济关键词总词频 数值 六个关键词词频合计 工作报告总词数 数值 政府工作报告总词数 行业代码 字符串 证监会行业分类代码 行业名称 字符串 证监会行业分类名称 行业代码A/行业名称A 字符串 一级行业分类 行业代码B/行业名称B 字符串 二级行业分类 行业代码C/行业名称C 字符串 三级行业分类 行业代码D/行业名称D 字符串 四级行业分类 上市日期 日期 股票上市日期 股票类型 字符串 A股/B股等类型标识 ABH股交叉码 字符串 交叉上市股票代码 成立日期 日期 公司成立日期 退市日期 日期 退市日期(如适用) 注册资本 数值 公司注册资本(万元) 经营范围 字符串 公司经营范围描述 公司沿革 字符串 公司发展历史沿革 五、数据处理说明 -------------------------------------------------------------------------------- 【数据匹配逻辑】 1. 首先计算省级数字经济发展重视程度指标 2. 根据上市公司所属省份,将省级指标匹配到公司层面 3. 匹配条件:年份 + 所属省份代码 4. 进一步匹配上市公司基本信息数据,完善公司详细信息 【数据筛选标准】 1. 保留2002年及以后的数据 2. 剔除未能成功匹配省级数据的公司记录 3. 保留所有A股上市公司 |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明