楼主: kedemingshi
1144 17

[量化金融] 映射移动电话数据中的隐私实用程序权衡 [推广有奖]

11
可人4 在职认证  发表于 2022-6-10 08:48:08
这意味着,一个对个人7%的数据有外部了解的窥探第三方可以重新识别她,并获得剩下的93%。相反,我们观察到,对于粒度最小的数据集DM24,重新识别平均需要32个数据点,或个人数据的51%c(DM24)=32,r(DM24)=51%. 因此,如果DM24被公布,第三方平均需要对个人数据的51%进行外部了解,才能重新识别她并获得剩余的49%。3.2效用结果图2显示了专家对每个粒度级别的数据效用的评估。我们观察到,随着数据在空间和时间上的泛化,数据有用性会下降,对于粒度最大和最小的数据集(DZ1和DM24),其值从9.3到4.0不等。实用程序图2:实用程序结果。每个概括文件中移动电话元数据的有用性。灰色条表示自举95%置信区间。空间粒度级别为Z=邮政编码,D=地区,M=直辖市。3.3隐私实用程序权衡图3显示了隐私实用程序权衡的结果。每一点代表一个通用数据集,评估有用性和再识别风险,其中最佳位置对应右上角的高有用性和硬再识别。我们观察到有用性和隐私之间的尖锐权衡。最细粒度的数据集dz1最有价值,有用性得分为9.3;然而,它也是最容易重新识别的数据集,平均而言,只有7%个人数据的外部知识的第三方可以重新识别个人,并获得其余93%的个人信息。

12
nandehutu2022 在职认证  发表于 2022-6-10 08:48:11
相反,粒度最小的数据集DM24的价值最低,可用性得分为4;然而,它也是最不容易重新识别的数据集,平均而言,第三方需要对个人数据的51%进行外部了解,才能获得剩下的49%的个人信息。指数拟合R2=0.93 95%置信区间50%<r25%<r 50%10%<r 25%0%<r 10%Privacy(重新识别信息比率r)–––––––––––––Utility24M6M12M12D6D12D24Z1Z24Z6D1图3:移动电话数据中的隐私效用权衡。移动电话数据开发中的效用与再识别风险,跨时空粒度{ZIP、地区、单一性}×{1h、6h、12h、24h}。数据集越有用,就需要lessauxiliary信息来重新识别其个体。相反,虽然数据泛化越来越阻碍重新识别,但它严重削弱了数据集的价值。图3还显示,权衡并不严格。泛化级别(如D24、Z24、M1和Z12)为帕累托次优或占主导地位。例如,D24和M 24具有类似的用途,但是对手需要比D24多65%的外部信息来重新识别M 24中的个人r(M)=51%,r(D)=29%.图2中的权衡意味着,虽然泛化越来越阻碍重新识别,但它严重破坏了数据的效用。这突出了粗化和数据共享模型在支持使用同时控制风险方面的互补作用。例如,数据集最容易重新识别,如D1、Z6和Z1,使用重新识别信息比率≤ 10%只能在严格的模型下共享,如预计算指标,或使用开放算法平台(27,28)。

13
能者818 在职认证  发表于 2022-6-10 08:48:14
图2还表明,即使是非常粗糙的数据集也容易被重新识别,因此不应完全公开。然而,我们可能希望通过与inD4D challenges(26)中使用的模型类似的模型,更广泛地共享具有更适度再认证风险的数据集,如M24,再认证信息比率r>50%,其中数据由数量有限的半信任方根据保密协议(NDA)访问。同样,具有中等-高识别风险的数据集,例如10%<r<50%-的数据集,可以在其他控制机制下共享,例如通过问答体系结构和/或可计算性和威慑性激励计划(29)通过可调整的披露控制进行远程访问。有关现代数据共享模型和协议的详细信息和讨论,请参见(30,31)。4结论目前的工作首次显示了手机数据对发展和人道主义行动的社会价值与个人暴露的身份识别风险之间臭名昭著的权衡。因为数据泛化直接侵蚀了数据的价值,所以不能将其视为在高维数据集中保护隐私的银弹解决方案(32)。然而,再加上提供可调整责任和安全程度的数据共享模型,它可能有助于在隐私和效用之间找到适当的平衡。这项工作将数据效用评估为专家在分析手机数据以促进发展和人道主义行动方面提供的价值。在考虑特定目的的数据共享时,这种方法尤其适用,例如在贫困测绘、交通规划或协助自然灾害应对工作的情况下。

14
nandehutu2022 在职认证  发表于 2022-6-10 08:48:18
我们预计未来的工作重点是在其他领域(如营销和信用评分)中权衡手机数据的使用。此处提出的再认证风险正式度量可以提供与再认证相关的信息需求和信息收益的有意义和直观的总结。最终,我们希望这项工作有助于促进更广泛受众的参与,以反映数据隐私的紧张关系,因为社会偏好是解决系统在隐私效用谱中应该位于何处的不可或缺的输入。参考文献1。Y、 -A.de Montjoye、C.A.Hidalgo、M.Verleysen和V.D.Blondel,《人群中的独特:人类流动的隐私界限》,《科学报告》,第3卷,2013.2。M、 Gramaglia和M.Fiore,“关于移动交通数据集的匿名性”,arXiv预印本arXiv:1501.001002014.3。Y、 Song、D.Dahlmeier和S.Bressan,“在人群中并不那么独特:一种简单有效的匿名位置数据算法”,载于PIR@SIGIR,第19-24页,Citeseer,2014.4。Y、 -A.de Montjoye、L.Radaelli、V.K.Singh等,《购物中心中的独特:信用卡元数据的可识别性》,《科学》,第347卷,第6221号,第536-5392015.5页。A、 Cecaj、M.Mamei和F.Zambonelli,“命名cdr和社交网络数据之间的重新识别和信息融合”,《环境智能和人性化计算杂志》,第7卷,第1期,第83-962016.6页。A、 Boutet、S.B.Mokhtar和V.Primault,《多传感器数据集上人类移动性的唯一性评估》。博士论文,LIRIS UMR CNRS 52052016.7。A、 Narayanan和V.Shmatikov,“大型稀疏数据集的鲁棒去匿名化”,不安全和隐私,2008年。SP 2008。IEEE研讨会,第111–125页,IEEE,2008.8。K、 El Emam、E.Jonker、L.Arbuckle和B.Malin,“健康数据再识别策略的系统性回顾”,PloS one,第卷。

15
mingdashike22 在职认证  发表于 2022-6-10 08:48:21
6,第12号,第E280712011.9页。G、 Wondracek、T.Holz、E.Kirda和C.Kruegel,“对非匿名社交网络用户的实际攻击”,《安全与隐私》(SP),2010年IEEE研讨会,第223–238页,IEEE,2010.10。UNITU,“事实和图表”,技术代表,联合国国际电信联盟,2013.11。P、 Deville、C.Linard、S.Martin、M.Gilbert、F.R.Stevens、A.E.Gaughan、V.D.Blondel和A.J.Tatem,《使用手机数据的动态人口地图》,《国家科学院学报》,第111卷,第45期,第15888–15893页,2014.12。五十、 Bengtsson,X.Lu,A.Thorson,R.Garfield和J.Von Schreeb,“通过使用移动电话网络数据跟踪人口流动改善对灾害和疫情的反应:海地地震后地理空间研究”,PLoS Med,第8卷,第8期,第e1001083页,2011.13。UNGP,“在洪水期间使用手机活动进行灾害管理”,技术代表,联合国全球脉搏,2013.14。A、 Wesolowski、N.Eagle、A.J.Tatem、D.L.Smith、A.M.Noor、R.W.Snow和C。O、 Buckee,“量化人类流动对疟疾的影响”,《科学》,第338卷,第6104号,第267-270页,2012.15。E、 Frias Martinez、G.Williamson和V.Frias Martinez,“利用人类流动性和社交网络信息的基于代理的流行病传播模型”,摘自《隐私、安全、风险和信任》(PASSAT)和2011年IEEE第三届国内社会计算会议(SocialCom),2011年IEEE第三届国际会议,第57-64页,IEEE,2011.16。N、 Eagle、M.Macy和R.Claxton,“网络多样性与经济发展”,《科学》,第328卷,第5981号,第1029-10312010.17页。J、 Blumenstock、G.Cadamuro和R.On,“从手机元数据预测贫困和财富”,《科学》,第350卷,第6264号,第1073-10761055.18页。J、 E.Steele,P.R.Sundsoy,C.Pezzulo,V.A.Alegana,T.J.Bird,J.Blumenstock,J.Bjelland,K.EngoMonsen,y.-A。

16
何人来此 在职认证  发表于 2022-6-10 08:48:23
de Montjoye,A.M.Iqbal等人,《利用手机和卫星数据绘制贫困地图》,《皇家学会界面杂志》,第14卷,第127期,第201606902017.19页。M、 Berlingerio、F.Calabrese、G.Di Lorenzo、R.Nair、F.Pinelli和M.L.Sbodio,“Allaboard:利用手机数据探索城市移动和优化公共交通的系统”,欧洲机器学习和知识发现联合会议数据库,第663-666页,Springer,2013.20。E、 Jahani,P.Sundsoy,J.Bjelland,L.Bengtsson,y.-A.de Montjoye,et al.,“利用机器学习和手机数据改进新兴市场的官方统计”,EPJData Science,第6卷,第1期,第3页,2017.21。S、 L,“k-匿名:保护隐私的模型”,《国际不确定性模糊性和基于知识的系统杂志》(10),2002.22。A、 Machanavajjhala、J.Gehrke、D.Kifer和M.Venkitasubramaniam,“l-多样性:超越k-匿名的隐私”,null,第24页,IEEE,2006.23。N、 Li、T.Li和S.Venkatasubramanian,《T-亲密:超越k-匿名和L-多样性的隐私》,数据工程,2007年。ICDE 2007。IEEE第23届国际会议,第106–115页,IEEE,2007.24。A、 Noriega Campero等人,《平衡高维数据集的效用和隐私:手机元数据》。麻省理工学院博士论文,2015.25。D、 麦凯,《信息理论、推理和学习算法》。英国剑桥:剑桥大学出版社,2003.26。Y、 -A.de Montjoye、Z.Smoreda、R.Trinquart、C.Zimlicki和V.D.Blondel,“D4dsenegal:第二次手机数据促进发展挑战”,arXiv预印本XIV:1407.48852014.27。T、 Hardjono,D.Shrier和A.Pentland,《蛋白石/谜》,《托管:数据:身份和数据共享的新框架》,第3章,第79-99页,:Visionary Future LLC,2016.28。“OPAL:更好决策的开放算法”,2018.29。

17
能者818 在职认证  发表于 2022-6-10 08:48:27
Z、 Wan,Y.Voresbecichik,W.Xia,E.W.Clayton,M.Kantarcioglu,R.Ganta,R.Heatherly和B.A.Malin,“分析再识别风险的博弈论框架”,PloSone,第10卷,第3期,第E01205922015.30页。G、 D\'Acquisto、J.Domingo Ferrer、P.Kikiras、V.Torra、Y.-A.de Montjoye和A.Bourka,“大数据中的设计隐私:大数据分析时代隐私增强技术概述”,arXiv预印本arXiv:151206000,2015.31。Y、 -A.de Montjoye和e.al,“手机数据的隐私自觉使用”,技术代表,2017.32。A、 Narayanan和E.W.Felten,“没有银弹:识别仍然不起作用”,白皮书,第1-82014页。致谢作者感谢Robert Kirkpatrick、Mila Romanoff和Miguel Luengo Oroz多年来关于数据隐私的富有成效的讨论。我们也感谢朱莉·里卡德在准备这份手稿时所作的宝贵贡献。这项工作得到了麻省理工学院信托数据协会(Trust.MIT.edu)的资助。所有的发现和结论都是作者的,不一定反映其赞助者、机构和同事的观点。亚历杭德罗·诺列加·坎佩罗(Alejandro Noriega Campero)得到了墨西哥科学技术委员会(CONACYT)的部分支持。竞争利益作者声明他们没有竞争利益。作者贡献SAC、YAM、AR和AP设计了这项研究。ANC和OL进行了分析并获得了结果。非国大和美联社撰写了这篇论文。数据和材料的可用性根据要求,复制支持本文结论的所有图表所需的数据集包含在其他文件3和4中。

18
何人来此 在职认证  发表于 2022-6-10 08:48:32
所有分析的数据都是匿名的,从所有位置数据中删除,只计算了总的身份识别统计数据。缩写GPS、全球定位系统列表;CDR,呼叫详细记录。映射MobilePhone元数据中的隐私-有用性权衡,以促进开发a。Noriega Campero、Yves A.de Montjoye、Alex Rutherford、OrenLederman和Alex Pentland附加文件1:关于重新识别的补充图b)A)图1。不同空间和时间粒度级别数据集的重新识别结果:信息成本和信息比率。灰色条表示自举95%置信区间。1/21h 6h 12h 24hUnicipalityDistrictzIp49.3%10.2%4.1%1.5%76.6%38.0%25.6%14.1%97.0%76.8%64.0%52.0%4点u4 1h 6h 12h 24h6.4 15 22 323.9 8.7 12 172.6 3.9 5 6.7信息成本c 1h 6h 12h 24h15.1%29.1%38.1%50.6%10.0%18.2%22.8%28.2%10.2%12.5%15.4%信息率r 90%70%50%30%10%5101520253010%20%30%40%50%图2。在不同的空间和时间粒度级别上重新识别数据集的结果。比较单一性、信息成本和信息比率。2/2

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 06:12