楼主: inafok
928 0

[学习笔记] 【学习笔记】第9期学习笔记《联邦学习能打破数据孤岛吗》 不同的处理数据的方 ... [推广有奖]

  • 1关注
  • 3粉丝

本科生

75%

还不是VIP/贵宾

-

威望
0
论坛币
2131 个
通用积分
311.1239
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
152 点
帖子
34
精华
0
在线时间
129 小时
注册时间
2008-9-3
最后登录
2021-8-14

楼主
inafok 发表于 2020-5-6 02:51:38 来自手机 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
第9期学习笔记《联邦学习能打破数据孤岛吗》

不同的处理数据的方式,为数据拥有者以及数据求助者,带来的关于支付与收获的价值的认知差异,将会是双方在新技术与新方法不断叠加后,需要重新估量,并达成一致的一门技巧。

(以下为摘录)
近年来,随着大数据、人工智能等技术的兴起,人们对于数据的利用水平获得迅速提升。通过对数据的分析,人们可以轻松地发掘出大量潜藏在事物背后的规律,并将它们用于商业实践,从而产生巨大的经济价值。与之对应的,原本分文不值的数据也摇身一变成为了数字经济时代至关重要的生产要素。

怎么把这些数据集中起来呢?一个方法是进行调查,直接选取一个样本,让样本中的被访者来提供这些信息——这就是传统的统计学所用的方法。要进行类似的调查,成本往往非常高。

2017年,谷歌推出了一款基于安卓手机的联邦学习程序。它通过将算法程序发送到每个用户的手机上,然后回收反馈信息,进而获得想要的分析结论。在看到了谷歌的实践后,国内的大型互联网企业也很快认识到了联邦学习的价值,“腾讯系”的微众银行、“阿里系”的蚂蚁金服都陆续推出了与之类似的技术解决方案,并将它们应用到了实践领域。

在联邦学习的过程中,数据拥有者需要在本地完成大量的计算任务,而这可能耗费广大数据拥有者的巨大算力。这对面向B端的学习任务来讲可能算不上什么问题,但对于面向C端的任务则可能是个大麻烦。

在联邦学习中,如何处理参与者的激励也是一个问题。激励和回报也是制约人们参与联邦学习的一个障碍。从数据拥有者的角度看,我既然贡献了数据,那么又能从中获得多少回报呢?

作为一种新型的生产要素,数据的价值是很难衡量的。我们通常说“大数据”,好像数据规模越大就越有价值,但现实却并非如此。事实上,很多规模巨大的数据本身所包含的信息却非常少,大量的记录都是无用的噪声,对于这样的数据,其价值并不会和其规模成正比。在传统的集中数据处理模式下,人们在购买数据的过程中,可以对数据的质量进行检验,并根据数据质量给出对应的估价,因而可以让数据交易双方获得一个比较好的共识。而在联邦学习的条件下,学习的参与者并无法检验其他参与伙伴给出的数据质量,因而也自然无法对数据质量进行估价。在这种情况下,要对数据的提供者提供合理的激励,让他们感到获得了公平的回报就是一件十分困难的事。从难度上讲,它甚至远远超过了现在的数据定价问题。

目前,已经有一些研究试图对这一问题进行回答。例如,在一篇论文中,提出了用合作博弈论中的“沙普利值”(ShapleyValue)的概念来处理这个问题。简单来说,它根据每个用户提供的数据对于最终结果的影响比重来衡量他们对学习的贡献。这似乎是一个不错的主意,但问题也是很多的。例如,假设一个用户提供了很多无用或虚假的数据,它很可能让整个模型的结论产生巨大的变化,然而根据沙普利值,它在学习中给出的贡献却会是最大的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-16 19:48