楼主: kedemingshi
1143 17

[量化金融] 映射移动电话数据中的隐私实用程序权衡 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-6-10 08:47:34 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Mapping the Privacy-Utility Tradeoff in Mobile Phone Data for
  Development》
---
作者:
Alejandro Noriega-Campero, Alex Rutherford, Oren Lederman, Yves A. de
  Montjoye, and Alex Pentland
---
最新提交年份:
2018
---
英文摘要:
  Today\'s age of data holds high potential to enhance the way we pursue and monitor progress in the fields of development and humanitarian action. We study the relation between data utility and privacy risk in large-scale behavioral data, focusing on mobile phone metadata as paradigmatic domain. To measure utility, we survey experts about the value of mobile phone metadata at various spatial and temporal granularity levels. To measure privacy, we propose a formal and intuitive measure of reidentification risk$\\unicode{x2014}$the information ratio$\\unicode{x2014}$and compute it at each granularity level. Our results confirm the existence of a stark tradeoff between data utility and reidentifiability, where the most valuable datasets are also most prone to reidentification. When data is specified at ZIP-code and hourly levels, outside knowledge of only 7% of a person\'s data suffices for reidentification and retrieval of the remaining 93%. In contrast, in the least valuable dataset, specified at municipality and daily levels, reidentification requires on average outside knowledge of 51%, or 31 data points, of a person\'s data to retrieve the remaining 49%. Overall, our findings show that coarsening data directly erodes its value, and highlight the need for using data-coarsening, not as stand-alone mechanism, but in combination with data-sharing models that provide adjustable degrees of accountability and security.
---
中文摘要:
今天的数据时代有很大潜力加强我们在发展和人道主义行动领域追求和监测进展的方式。我们研究了大规模行为数据中数据效用与隐私风险之间的关系,重点研究了手机元数据作为范例域。为了衡量效用,我们调查了专家在不同时空粒度级别上的手机元数据的价值。为了度量隐私,我们提出了一种形式直观的重新识别风险度量$\\ unicode{x2014}$信息比率$\\ unicode{x2014}$,并在每个粒度级别计算它。我们的结果证实了数据效用和可再识别性之间存在着明显的权衡,其中最有价值的数据集也最容易再识别。当数据按邮政编码和每小时级别指定时,外界只知道一个人数据的7%,就足以重新识别和检索剩下的93%。相比之下,在市政府和日常层面指定的最没有价值的数据集中,重新识别平均需要51%或31个数据点的外部知识才能检索剩余的49%。总的来说,我们的研究结果表明,数据粗化会直接侵蚀其价值,并强调需要使用数据粗化,而不是作为独立的机制,而是与提供可调整的责任和安全程度的数据共享模型相结合。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computers and Society        计算机与社会
分类描述:Covers impact of computers on society, computer ethics, information technology and public policy, legal aspects of computing, computers and education. Roughly includes material in ACM Subject Classes K.0, K.2, K.3, K.4, K.5, and K.7.
涵盖计算机对社会的影响、计算机伦理、信息技术和公共政策、计算机的法律方面、计算机和教育。大致包括ACM学科类K.0、K.2、K.3、K.4、K.5和K.7中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Cryptography and Security        密码学与安全
分类描述:Covers all areas of cryptography and security including authentication, public key cryptosytems, proof-carrying code, etc. Roughly includes material in ACM Subject Classes D.4.6 and E.3.
涵盖密码学和安全的所有领域,包括认证、公钥密码系统、携带证明的代码等。大致包括ACM主题课程D.4.6和E.3中的材料。
--
一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
--> Mapping_the_Privacy-Utility_Tradeoff_in_Mobile_Phone_Data_for_Development.pdf (831.53 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:实用程序 移动电话 Cryptography Quantitative Contribution

沙发
可人4 在职认证  发表于 2022-6-10 08:47:39
绘制用于开发的移动电话数据中的隐私效用权衡图Alejandro Noriega-Campero1*, Alex Rutherford、Oren Lederman、Yves A.de Montjoye、Alex PentlandMassachusetts理工学院,马萨诸塞州剑桥,美国伦敦帝国理工学院,英国伦敦*通信地址:noriega@mit.eduToday的数据时代有很大潜力加强我们在发展和人道主义行动领域追求和监测进展的方式。研究大规模行为数据中数据效用与隐私风险之间的关系,重点研究手机元数据作为范例域。为了衡量效用,我们在不同的时空粒度级别上调查了专家关于手机元数据的价值。为了衡量隐私,我们提出了一种正式而直观的重新识别风险衡量方法,即信息比率,并在每个粒度级别计算它。我们的结果证实了数据效用和可再识别性之间存在着明显的权衡,其中最有价值的数据集也最容易再识别。当数据以邮政编码和小时级别指定时,只有7%的aperson数据来源的外部知识可用于对其余93%的数据进行重新识别和检索。相比之下,在市ZF和日常级别的最没有价值的数据集中,重新识别平均需要51%或31个数据点的外部知识才能检索剩余的49%。总的来说,我们的发现表明,数据粗化会直接侵蚀其价值,并强调了使用数据粗化的必要性,而不是作为独立的机制,而是与提供可调整责任和安全程度的数据共享模型相结合。内容1简介31.1用于开发的手机数据。31.2移动电话元数据中的隐私风险。

藤椅
nandehutu2022 在职认证  发表于 2022-6-10 08:47:42
42方法52.1评估隐私。52.2评估效用。73结果83.1重新鉴定结果。83.2效用结果。93.3隐私实用程序权衡。94结论111简介大规模的人类行为数据集可能会彻底改变我们发展城市、消灭疾病和犯罪以及应对自然灾害的方式。然而,这些信息包括敏感信息,如公民的地理位置、购买行为和社会化模式。此外,大量研究表明,对抗性方法可以成功地将匿名数据集中的敏感信息与个人身份关联起来,即重新识别(1-9)。因此,了解和管理这些数据集的隐私风险仍然是其道路使用和潜在影响的先决条件。在这项工作中,我们将手机元数据视为通俗地称为“大数据”的一个范例。由于其高粒度、高维度、被动的数据生成过程和高潜在价值,手机元数据代表了以“大数据”为核心的新型数据类型的最具特色的特征。其他类型包括GPS轨迹、网络浏览、财务行为、基因数据和卫星图像;它们有着共同的潜在社会价值和对个人隐私的关注。1.1用于开发的手机数据元数据是关于数据的数据。

板凳
大多数88 在职认证  发表于 2022-6-10 08:47:45
在移动电话使用的情况下,这表示进行呼叫的记录包括时间戳和地理位置,精度由手机发射塔的位置决定,但没有关于呼叫内容本身的信息。手机元数据通常被称为CDR(通话详细记录)。表1显示了几个电话的通话详细记录的DummeyExamples。表1:CDR记录示例。呼叫者ID接收器ID塔ID时间299C20B41B32B5GH76C343 AEA595D43E2C9EE20EC12R 768 16-12-03 16:5029C20B41B32B5GH76C343 C721FD9F5A8902BD1EE9C4981 16-12-24 19:56B8673E7C673FC9EZ958FB6 3ACC4FD29B45ZX1A2012 255 16-12-24 20:34 CDR的相关特征是:1)呼叫者和接收器身份是假名化的,即。,他们的电话号码被匿名笔名取代(例如,通过哈希);和2)用于每次通信的塔的地理位置提供了用户位置的近似值。CDR是用于发展和人道主义应急目的的一个特别普遍和相关的数据源。它们由标准的电信基础设施生成,并由移动电话公司持续收集。此外,手机和通话时间变得越来越便宜,从而提高了渗透率和代表性,到2013年,发展中国家的渗透率和代表性分别达到89%和96%(10)。分析和使用手机元数据中的位置信息有几种方法。例如,可以实时绘制人口密度和人口流动性的动态地图,覆盖的区域与国家一样大,并且具有高度的地理和个人细节(11)。

报纸
kedemingshi 在职认证  发表于 2022-6-10 08:47:48
这些信息反过来又在广泛的发展和人道主义行动领域有着宝贵的应用,例如:地震和洪水灾害应对(12、13)、疟疾和流感疫情流行分析(14、15)、发达国家和发展中国家的社会经济和贫困绘图(16-18)、交通系统开发(19),以及改善国家统计(20)。1.2移动电话元数据中的隐私风险最近,通过假名化和机构保密协议(NDA)提供的隐私已成为共享大型CDR数据集的基础。然而,最近的研究表明,对抗性方法可以成功地将数据集中的敏感信息与个人身份联系起来,即使在所有个人身份都被化名的情况下(1-9)。一项关于CDR重新识别的开创性研究分析了一个西方小国150万移动电话用户的移动数据,在这个国家,每个人的位置每小时都有一个特定的位置,空间分辨率由运营商天线的地理分布给出(1)。它表明,仅仅四个随机时空点的外部知识就足以唯一识别数据库中95%的个体。此外,研究表明,可以对数据进行粗化,以减少重新识别的可能性。这种粗化,更恰当地命名为空间和时间概括,是应用于数据保护隐私的关键技术,允许公司、非ZF组织和公共组织平衡隐私风险与数据潜在的积极社会影响。2方法2.1评估PrivacyConcepts和词汇数据集包含姓名、电话、地址、收入、健康状况、位置、购买的物品和访问的网站等属性。

地板
mingdashike22 在职认证  发表于 2022-6-10 08:47:51
这些属性可分为:直接标识符、准标识符或敏感属性。例如,在匿名健康数据库中,姓名和社会保障号码(直接识别者)都是假名,有权访问该数据库的窥探第三方可以通过使用Jane的邮政编码和年龄(准识别者)的辅助信息将她挑出来,试图了解Jane的医疗状况(敏感属性)。我们用人工智能表示关于人i的准标识符的辅助信息集;并将记录与AIA匹配的个体子集称为给定ai的等价类,用Ei表示。如果| Ei |=1,则Jane被重新识别。保护隐私的传统措施侧重于确保攻击者即使完全了解个人的准身份,也无法唯一地重新识别她(21),或提取有关她的信息(22、23)。例如,过去十年中广泛使用的一种隐私方法是k-匿名(21),其中准身份的粒度逐渐降低,从而增加了等效类的大小,直到要求最小i | Ei |≥ k ismet。然而,这些方法由于其高维度(24),无法处理大多数行为数据集,因此需要适当的数据集。高维数据中的隐私人们的在线活动留下了全面的数据追踪,再加上普及传感技术的出现,构成了我们社会系统前所未有的工具。值得注意的是,当今“大数据”的核心数据是高维的。

7
kedemingshi 在职认证  发表于 2022-6-10 08:47:55
例如,人类流动性数据、银行和信用卡数据、消费者行为、网络浏览、在线社交网络和基因数据。高维数据集只包含可能记录空间的稀疏样本,这与指纹相似,通常意味着单个记录是唯一的。要说明如何利用稀疏性进行重新识别,请考虑一个非常大的歌词数据库。有界字数的所有可能歌词排列的空间都非常大。因此,给定一个只有3到4个单词的序列,我们很可能在数千首歌曲中唯一地识别出一首歌曲。在实践中,研究表明,从手机记录和信用卡交易到在线moviereviews(1、4、7),各种高维数据集的可靠性都很高。重新识别能力的衡量在高维数据中评估重新识别风险的衡量必须将敏感属性本身视为准识别者,反之亦然,转向部分对手知识的范式作为重新识别的基础。一个这样的度量是唯一性(1)。unicityupof数据库D的计算方法是使用每个用户记录中随机选择的数据点重新识别D中用户的百分比;i、 e.,同等等级满意度(Epi)为1的用户百分比。例如,研究表明,外界对fourcalls的了解足以在CDR数据集中重新识别出150万个人中的95%(u=95%)。在这里,我们详细阐述了之前的工作,并提出了以下两个高维数据集中隐私的度量标准。我们的目标是有意义和直观的指标,以及植根于信息理论的正式框架中的指标。信息成本。

8
mingdashike22 在职认证  发表于 2022-6-10 08:47:58
与unicity的精神类似,我们将D中重新识别的信息成本定义为有助于在D中重新识别用户的外部信息的平均数量。让cidenote表示从用户i的记录中提取的重新识别用户所需的数据点的数量,然后将D的信息成本定义为c=nPci,其中n是用户数量。信息比率。此外,我们将D的信息比r定义为重新识别用户所需的用户数据的平均分数。让| di |与di∈ D表示D中i\'sdata的量,则D的信息比由r=nPci | di |给出。相关地,informationratio不仅总结了重新识别所需的信息量,还总结了一旦用户重新识别,对手获得的信息量;其中1- r是平均信息增益。信息比率的这一特征具有高度相关性,因为它使利益相关者能够反映出对隐私风险两个关键要素的偏好:信息需求和信息收益。这些指标通过平均信息含量的核心概念,即多元分布的熵,与信息论相联系(25)。尤其是,数据集的熵越高,任何一点对手知识的信息含量就越高,因此重新识别所需的信息就越少(信息成本和比率越低)。此外,这些措施传达了一种有意义和直观的解释,这可能有助于更广泛的受众反思和评估重新识别所带来的可能性和潜在危害。下面,我们将这些度量应用于几个时空粒度级别的CDR。1h 6h 12h 24H信息成本1h 6h 12h 24H信息比率5101520253010%20%30%40%50%datapoints%ZipdistrictMunicipity(a)(b)图1:重新识别结果。

9
nandehutu2022 在职认证  发表于 2022-6-10 08:48:01
在不同的空间和时间粒度级别上重新识别数据集的结果:(a)信息成本和(b)信息比率。所有95%置信区间均不重叠(除了成对(D1,Z6)和(D24,M 6),如补充文件1所示)。2.2评估效用为了评估移动电话数据在各种空间和时间概括层面上的有用性,我们从一项定量调查中收集了数据,该调查的对象是在研究和分析移动电话数据以促进发展和人道主义行动方面有经验的专家。特别是,该调查的人群是参加2014年D4D塞内加尔大赛的专家,该大赛是基于Orange手机用户匿名记录的开放式创新数据挑战赛(26)。32位来自全球学术界和研究机构的D4D专家选择了参与调查。值得注意的是,该人才库代表了14个国家和5个大洲的25个研究机构的多样性;以及健康、交通和城市规划、国家统计和其他领域的领域分布(见表2)。该调查要求专家考虑一种情况,即向他们提供来自发展中国家大城市地区的CDRSF,包括该地区具有代表性的大量人口的所有呼叫通信。

10
何人来此 在职认证  发表于 2022-6-10 08:48:04
专家们对这些数据在其研究领域中的有用性进行了从1到10的评分,如果在图1所示的各种时空粒度级别上进行了概括(附加文件2中的屏幕截图)。表2:专家数据。专家数量32机构数量25大洲北美、南美、亚洲、非洲和欧洲。比利时、喀麦隆、加拿大、智利、中法、德国、印度、意大利、日本、西班牙、瑞典、英国、美国。受访者关注的领域为健康20.5%,交通和城市规划34%,国家统计20.5%,和其他25%3结果3.1重新识别结果我们分析了一个手机数据集D,其中包括2013年发展中国家大都市地区140万人的电话通话。从中,我们导出了空间和时间粒度级别g的每个组合的通用数据集∈ {ZIP,区,市}×{1h,6h,12h,24h}。使用的空间粒度级别为邮政编码、地区和市政多边形,将空间划分为56、156和2130个多边形,平均面积分别为101、36和3 km。使用的时间粒度级别是持续时间为1小时、6小时、12小时和24小时的时间片。例如,在邮政编码和6小时粒度通用的数据集DZ6下,一个用户下午4点从邮政编码02139发出的呼叫与同一邮政编码的另一个用户下午7点发出的呼叫无法区分。我们计算了与每个广义数据集Dg相关的身份识别的信息成本c(Dg)和信息比率r(Dg)。图1显示了结果。我们观察到,对于粒度最大的数据集DZ1,平均需要2.6位,即数据点来重新识别个人,这代表了该个人数据的7%c(DZ1)=2.6,r(DZ1)=7%.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-23 03:34