--------------------------------------------------------------------------------
数据名称:数据风险暴露变量
数据年份:2010-2024年
数据来源:中国A股上市公司年度报告(MD&A部分)
数据格式:Excel (.xlsx)
样本范围:中国A股上市公司
【研究背景】
--------------------------------------------------------------------------------
数据风险暴露变量作为量化企业数据安全管理水平的核心指标,是衡量上市公司在
数字化转型进程中数据治理能力与风险防控实力的关键标尺。随着《中华人民共和国
数据安全法》《个人信息保护法》等法规的密集出台,数据风险已成为影响企业持续
经营的重要因素。
该变量通过文本挖掘技术将企业数据风险相关的定性信息转化为可量化的定量指标,
有效填补"数据风险识别—风险程度度量—治理效果评估"分析链条中的数据空白,
为监管部门完善数据安全监管政策、高校开展数据治理研究、投资者评估企业运营
风险提供权威可靠的数据支撑。
【数据构建方法】
--------------------------------------------------------------------------------
数据核心来源为2010-2024年中国A股上市公司年度报告中"管理层讨论与分析
(MD&A)"部分的文本信息。
构建流程:
1. 基础关键词界定
参考《工业和信息化领域数据安全风险信息报送与共享工作指引(2021)》(试行)
及国家互联网信息办公室印发的《国家网络安全事件应急预案(2017)》中对数据
风险和网络风险的定义和具体分类,界定四大类基础关键词:
- 数据泄露
- 数据篡改
- 数据滥用
- 违规传输
2. 语义拓展
基于Word2vec模型对基础关键词进行语义拓展,形成包含基础词与拓展词的完整
关键词词典
3. 精准匹配
在MD&A文本中抓取相关内容并统计词频
4. 清洗校验
以词频值作为数据风险暴露变量的核心度量
【数据指标】
--------------------------------------------------------------------------------
序号 字段名称 字段说明
---- ------------ ------------------------------------------------
1 股票代码 上市公司股票代码
2 年份 数据所属年份(2010-2024)
3 总词数 MD&A文本总词数
4 数据安全 "数据安全"相关关键词词频
5 信息安全 "信息安全"相关关键词词频
6 代码安全 "代码安全"相关关键词词频
7 数据丢失 "数据丢失"相关关键词词频
8 信息丢失 "信息丢失"相关关键词词频
9 风险自动化风险 自动化相关风险词频
10 信息技术风险 信息技术相关风险词频
11 数字风险 数字化相关风险词频
12 系统风险 系统相关风险词频
13 kw_sum 数据风险暴露关键词词频总和(核心指标)
注:完整关键词词典已整合至附属txt文档中
【关键词分类示例】
--------------------------------------------------------------------------------
# 数据泄露类
"数据安全"、"信息安全"、"代码安全"、"数据丢失"、"信息丢失"、"信息泄露"、
"数据破坏"、"信息毁损"、"数据窃取"、"信息窃取"、"窃取网络数据"、"隐私保护"、
"信息保护"、"数据保护"、"非法访问"、"未授权访问"、"泄露"、"外泄"、"泄漏"、
"露风"、"窃取"、"越权存取"、"越权操作"、"保密"...
# 数据篡改类
"篡改网页"、"篡改网站"、"数据假冒"、"信息假冒"、"仿冒页面"、"虚假页面"、
"篡改"、"欺诈"...
# 数据滥用类 & 违规传输类
(详见附属关键词文档)
【参考文献】
--------------------------------------------------------------------------------
[1] 陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自
大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.
数据风险暴露变量.zip
(2.08 MB, 需要: RMB 28 元)


雷达卡



京公网安备 11010802022788号







