楼主: kevin.com
106 0

[经管数据集] 【数据】区县ZF税务数据分析能力建设DID(2007-2025) [推广有奖]

  • 1关注
  • 6粉丝

已卖:473份资源

教授

26%

还不是VIP/贵宾

-

威望
0
论坛币
6957 个
通用积分
46.6891
学术水平
279 点
热心指数
278 点
信用等级
278 点
经验
2511 点
帖子
509
精华
0
在线时间
698 小时
注册时间
2023-2-15
最后登录
2025-11-13

20周年荣誉勋章 初级热心勋章 中级热心勋章

楼主
kevin.com 发表于 2025-11-20 15:13:22 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据简介

政府税务数据分析能力建设,是各级税务部门围绕 “以数治税” 目标,在算力、数据、算法三大核心维度开展的系统性能力提升工作,具体包括采购服务器、数据中心等底层硬件以强化算力支撑,整合税务系统内部数据、企业申报数据、跨部门共享数据及互联网外部数据以优化数据治理,开发风险预警、智能研判等算法模型及配套系统以完善技术应用,同时通过人才招录、第三方合作等方式补全能力短板。其核心作用在于破解海量涉税数据的处理难题,通过:

-“查得更广”——覆盖更多地区与行业的企业

-“查得更准”——减少人工误差、精准识别税务风险

-“查得更快”——缩短违法查处周期

的机制提升税收征管效能,既能有效抑制企业避税行为、提高税收遵从度,又能缩小企业间税负差异以促进税负公平,还能通过媒体宣传形成威慑效应,最终优化税收营商环境,为推进税收治理现代化提供关键支撑。


本数据参照孙鲲鹏、侯微怡和杨凡(2025)的做法,基于中国政府采购网爬取的合同公告数据构建“政府税务数据分析能力建设DID”,即通过关键词字典法挑选出税务部门数据分析技术相关的采购合同样本数据,但是我们将范围锁定至全国区县层面的税务有关部门,而非地级市层面,步骤如下:

1.被参考方通过筛选出字段中包含“税务局”、“税务分局”、“国家税务总局**市税务局”等关键词进行挑选得到样本,这给予了我们一些启示。因此为图方便,我们使用CNPD中国政府采购数据库,从中筛选出区县层面的税务部门采购合同数据样本。


2.根据被参考方随构建的字典,对数据样本进行识别。该关键词字典分为三个部分,算力层、数据层和算法层。这些关键词的选择已被验证是合理且正当的,这是因为被参考方从高校、税务部门、会计师事务所、企业4个领域分别选取了代表性人物,采用问卷调查的方式,收集了他们对这些关键词选择的合理性和正当性判断,得到了较高认可的结果。


图源:《管理世界》2025年第9期,以数治税:税务部门数据分析能力建设的效应

3.创立变量“税务数据分析能力”:当合同内容中包含上述三个维度中任意关键词,取值为1,否则为0。


我们在此语境中所提的“合同内容”包括“合同名称”、“主要标的名称”以及“规格型号或服务要求”,但通常来说,其实“合同名称”的信息量已足够。


需要注意的是,这里我们还调用了AI进行二阶段判断,以避免识别上诸如“物业管理”“食堂后勤管理”“空调机房”等歧义采购合同内容,所用被参考方提供的定义:

图源:《管理世界》2025年第9期,以数治税:税务部门数据分析能力建设的效应

4.过滤出“税务数据分析能力”为1的合同样本观测值,再选择它们当中最早的采购年份,即每个区县最早的“合同签订年份”作为“最早采购年份”,并且滞后一年,作为DID起始年份,这是因为被参考方指出,需要考虑到当年与数据分析能力相关的政府采购要正式落地并发挥作用可能需要一定时间,所以滞后一年是合理的。


5.接着是,基于我们的观察结果及前期预期的假设,关键词词典里个别常规词语被证实会致使出现“非数据分析能力”相关的“合同内容”。因此,比如“物业管理服务”、“食堂后期管理服务”包含“管理”,“空调机房维修”包含“机房”;因此,我们不得不调用大预言模型,结合‘算力维度’、‘数据维度’及‘算法维度’的语境,对“合同内容”做出进阶判断,做出最后筛选。


6.在样本期间内,若区县层面的税务部门出现数据分析能力相关的采购,该区县则视为处理组(Treat=1),否则为对照组(Treat=0)。此外,Time为时间虚拟变量,该区县与数据分析能力相关的采购合同签订当年起滞后一年及之后,取值为1,否则取0。DID 则表示区县的税务部门在年份t是否已进入数据分析能力建设后的阶段,用以构建双重差分(DID)识别框架。对于多次实施不同批次数字化改革的城市,DID基于合同签订当年起滞后一年而确定。

注释:此区县层面涵盖乡镇。

最后,在区域划分上,本数据采用《2023年中国市级以上行政区划》作为统一标准,将样本数据统一对应至该版本行政区划层级,当中还包括省直辖县以及新疆生产建设兵团,使用者可自行处理。





数据指标

省级名称

省份代码

城市名称

城市代码

区县名称

区县代码

年份

最早签订合同年份滞后一年

Treat

Post

DID

合同名称



数据来源CNPD中国政府采购数据
时间跨度2007-2025
区域跨度全国区县
数据格式Excel形式


数据展示



参考文献

[1]孙鲲鹏,侯微怡,杨凡.以数治税:税务部门数据分析能力建设的效应[J].管理世界,2025,41(09):131-163.


县域数字税务建设DID(2000-2025).zip (894.9 KB, 需要: RMB 28 元)



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析能力 数据分析 分析能力 DID 国家税务总局

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-6 00:36