楼主: kukenghuqian
868 0

[学科前沿] Synthetic Datasets for Statistical Disclosure Control:Theory and Implementation [推广有奖]

  • 5关注
  • 31粉丝

人间农夫

已卖:8807份资源

院士

14%

还不是VIP/贵宾

-

威望
0
论坛币
134254 个
通用积分
314.5742
学术水平
143 点
热心指数
172 点
信用等级
117 点
经验
55496 点
帖子
1380
精华
0
在线时间
3057 小时
注册时间
2012-9-27
最后登录
2026-1-31

楼主
kukenghuqian 发表于 2019-3-2 15:03:03 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币


Synthetic Datasets for Statistical Disclosure Control--Theory and Implementation.pdf (2.71 MB, 需要: 30 个论坛币)
捕获.JPG



Contents
Foreword . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii
Acknowledgements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
Acronyms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv
List of Figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii
List of Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xix
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Background on Multiply Imputed Synthetic Datasets . . . . . . . . . . . . . . 7
2.1 The history of multiply imputed synthetic datasets . . . . . . . . . . . . . . . 7
2.2 Advantages of multiply imputed synthetic datasets compared with
other SDC methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3 Background on Multiple Imputation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1 Two general approaches to generate multiple imputations . . . . . . . . . 14
3.1.1 Joint modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.2 Fully conditional specification (FCS) . . . . . . . . . . . . . . . . . . . . 15
3.1.3 Pros and cons of joint modeling and FCS . . . . . . . . . . . . . . . . 18
3.2 Real data problems and possible ways to handle them . . . . . . . . . . . . 18
3.2.1 Imputation of semi-continuous variables . . . . . . . . . . . . . . . . . 19
3.2.2 Bracketed imputation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.3 Imputation under linear constraints . . . . . . . . . . . . . . . . . . . . . 20
3.2.4 Skip patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4 The IAB Establishment Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
xixii Contents
5 Multiple Imputation for Nonresponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.1 Inference for datasets multiply imputed to address nonresponse . . . . 27
5.1.1 Univariate estimands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.1.2 Multivariate estimands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2 Analytical validity for datasets multiply imputed to address
nonresponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Multiple imputation of the missing values in the IAB
Establishment Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.3.1 The imputation task . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.3.2 Imputation models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3.3 Evaluating the quality of the imputations . . . . . . . . . . . . . . . . 33
6 Fully Synthetic Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.1 Inference for fully synthetic datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.1.1 Univariate estimands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.1.2 Multivariate estimands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.2 Analytical validity for fully synthetic datasets . . . . . . . . . . . . . . . . . . . 41
6.3 Disclosure risk for fully synthetic datasets . . . . . . . . . . . . . . . . . . . . . . 42
6.4 Application of the fully synthetic approach to the IAB
Establishment Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.4.1 The imputation procedure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.4.2 Measuring the analytical validity . . . . . . . . . . . . . . . . . . . . . . . 47
6.4.3 Assessing the disclosure risk . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7 Partially Synthetic Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.1 Inference for partially synthetic datasets. . . . . . . . . . . . . . . . . . . . . . . . 53
7.1.1 Univariate estimands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.1.2 Multivariate estimands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.2 Analytical validity for partially synthetic datasets . . . . . . . . . . . . . . . . 56
7.3 Disclosure risk for partially synthetic datasets . . . . . . . . . . . . . . . . . . . 56
7.3.1 Ignoring the uncertainty from sampling . . . . . . . . . . . . . . . . . . 57
7.3.2 Accounting for the uncertainty from sampling . . . . . . . . . . . . 58
7.4 Application of the partially synthetic approach to the IAB
Establishment Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.4.1 Measuring the analytical validity . . . . . . . . . . . . . . . . . . . . . . . 60
7.4.2 Assessing the disclosure risk . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.5 Pros and cons of fully and partially synthetic datasets . . . . . . . . . . . . 62
8 Multiple Imputation for Nonresponse and Statistical Disclosure
Control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
8.1 Inference for partially synthetic datasets when the original data
are subject to nonresponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
8.1.1 Univariate estimands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
8.1.2 Multivariate estimands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
8.2 Analytical validity and disclosure risk . . . . . . . . . . . . . . . . . . . . . . . . . 68Contents xiii
8.3 Generating synthetic datasets from the multiply imputed IAB
Establishment Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
8.3.1 Selecting the variables to be synthesized . . . . . . . . . . . . . . . . . 68
8.3.2 The synthesis task. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
8.3.3 Measuring the analytical validity . . . . . . . . . . . . . . . . . . . . . . . 71
8.3.4 Caveats in the use of synthetic datasets . . . . . . . . . . . . . . . . . . 76
8.3.5 Assessing the disclosure risk . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9 A Two-Stage Imputation Procedure to Balance the Risk–Utility
Trade-Off . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
9.1 Inference for synthetic datasets generated in two stages . . . . . . . . . . . 88
9.1.1 Fully synthetic data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
9.1.2 Partially synthetic data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.2 Analytical validity and disclosure risk . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.3 Application of the two-stage approach to the IAB Establishment
Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.3.1 Analytical validity for the panel from one-stage synthesis . . 91
9.3.2 Disclosure risk for the panel from one-stage synthesis . . . . . 93
9.3.3 Results for the two-stage imputation approach . . . . . . . . . . . . 96
10 Chances and Obstacles for Multiply Imputed Synthetic Datasets . . . . 99
A Bill Winkler’s Microdata Confidentiality References . . . . . . . . . . . . . . . 103
B Binned Residual Plots to Evaluate the Imputations for the
Categorical Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
C Simulation Study for the Variance-inflated Imputation Model . . . . . . . 127
Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-2-7 15:39