楼主: mingdashike22
1371 26

[量化金融] 计算数据红利 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
73.8816
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-6-15 22:35:30 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Computing a Data Dividend》
---
作者:
Eric Bax
---
最新提交年份:
2019
---
英文摘要:
  Quality data is a fundamental contributor to success in statistics and machine learning. If a statistical assessment or machine learning leads to decisions that create value, data contributors may want a share of that value. This paper presents methods to assess the value of individual data samples, and of sets of samples, to apportion value among different data contributors. We use Shapley values for individual samples and Owen values for combined samples, and show that these values can be computed in polynomial time in spite of their definitions having numbers of terms that are exponential in the number of samples.
---
中文摘要:
高质量的数据是统计和机器学习成功的根本因素。如果统计评估或机器学习导致做出创造价值的决策,数据贡献者可能希望分享该价值。本文介绍了评估单个数据样本和样本集价值的方法,以在不同的数据贡献者之间分配价值。我们对单个样本使用Shapley值,对组合样本使用Owen值,并表明这些值可以在多项式时间内计算,尽管它们的定义中的术语数量与样本数量呈指数关系。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computer Science and Game Theory        计算机科学与博弈论
分类描述:Covers all theoretical and applied aspects at the intersection of computer science and game theory, including work in mechanism design, learning in games (which may overlap with Learning), foundations of agent modeling in games (which may overlap with Multiagent systems), coordination, specification and formal methods for non-cooperative computational environments. The area also deals with applications of game theory to areas such as electronic commerce.
涵盖计算机科学和博弈论交叉的所有理论和应用方面,包括机制设计的工作,游戏中的学习(可能与学习重叠),游戏中的agent建模的基础(可能与多agent系统重叠),非合作计算环境的协调、规范和形式化方法。该领域还涉及博弈论在电子商务等领域的应用。
--
一级分类:Computer Science        计算机科学
二级分类:Computers and Society        计算机与社会
分类描述:Covers impact of computers on society, computer ethics, information technology and public policy, legal aspects of computing, computers and education. Roughly includes material in ACM Subject Classes K.0, K.2, K.3, K.4, K.5, and K.7.
涵盖计算机对社会的影响、计算机伦理、信息技术和公共政策、计算机的法律方面、计算机和教育。大致包括ACM学科类K.0、K.2、K.3、K.4、K.5和K.7中的材料。
--
一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Statistics        统计学
二级分类:Computation        计算
分类描述:Algorithms, Simulation, Visualization
算法、模拟、可视化
--

---
PDF下载:
--> Computing_a_Data_Dividend.pdf (206.39 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Applications Coordination Environments Quantitative Contribution

沙发
大多数88 在职认证  发表于 2022-6-15 22:35:35
计算数据分割BAXQuality数据是统计学和机器学习成功的一个基本贡献。如果统计评估或机器学习导致做出创造价值的决策,那么数据提供者可能希望分享该价值。本文介绍了评估单个数据样本和样本集价值的方法,以支持不同数据贡献者之间的价值。我们对单个样本使用Shapley值,对组合样本使用OwenValue,并且我们表明,这些值可以在多项式时间内进行计算,尽管它们的定义中的项数与样本数呈指数关系。ACM Economics&Computement 2019(EC’19)——海报展示。Eric Bax 21简介许多组织利用个人数据执行各种职能。在许多情况下,这涉及到分析多人汇总的数据,以做出导致产生利润或损失的决策。搜索、电子邮件和社交媒体提供商使用其用户的数据来选择广告来向其用户展示[16、23、3 7](通常是为了换取免费提供服务),这促使人们呼吁向用户支付数据视频费[5]——这是使用其数据生成的利润的一部分。本文详细介绍了计算数据红利的方法,可以是逐样本计算,也可以是收集构成决策数据集一部分的数据。本文提出的方法适用于向用户发布广告所得利润的数据红利,也适用于从数据生成利润的其他方式的数据红利。搜索、电子邮件和社交媒体提供商可以而且在某些情况下确实可以通过广告以外的方法从数据中产生利润。

藤椅
kedemingshi 在职认证  发表于 2022-6-15 22:35:38
示例包括使用聚合的电子邮件数据,例如用于购买的电子邮件收据,作为股票市场中买卖决策的输入[32、35、36],或用于支持此类决策的市场研究[20、21]。同样,可以分析聚合的搜索和社交媒体数据,以做出有效的经济预测[1 4、18、27],这也可以支持买卖决策,从而产生利润或损失。其他类型的组织也从聚合数据中获益。保险公司使用聚合数据来设定费率,医疗机构使用它(通常规模较小)进行临床试验和预测疾病爆发(这一功能也可以从搜索、电子邮件和社交媒体数据中受益[4,19])。许多零售商使用客户关系管理(CRM)系统,根据对客户汇总的数据分析,自动确定向哪些客户提供哪些服务。在冰岛,个人的医学、遗传学和谱系学数据已经聚合起来,用于医疗产品的开发以及人类学的发现[1、15、17、30]。组织可能会争辩说,提供数据的个人或团体已经得到了同等的补偿,因为他们可以用数据交换服务。然而,用户越来越关注数据隐私,欧盟的GDPR[2]等法律变化、美国国会关于互联网公司如何使用用户数据的听证会,甚至苹果首席执行官蒂姆·库克(TimCook)对应用设备用户行为的评论都证明了这一点,有利于让用户更好地控制和了解其数据的使用方式[31]。

板凳
可人4 在职认证  发表于 2022-6-15 22:35:41
随着用户对隐私问题的了解越来越多,他们开始认识到自己的数据驱动的价值,他们可能很快就会坚持要分享这些价值。本文中提出的计算数据红利的方法基于这样一种理念,即在做出推动利润的决策时,某些数据可能比其他数据更有价值。因此,该方法基于经济机制设计的概念【22,2 4–26】,旨在奖励联盟成员或子集团对其联盟贡献的价值。这些概念包括计算单个数据样本值的Shapley值[34],以及计算分配给每个多重样本提供者的收益或损失份额的Owen值[29]。第2节和第3节简要回顾了Shapley和Owen值以及关于排列的一些基本结果,我们将在后面的章节中使用这些结果进行除法。第4节描述了为依赖基于频率的分析的决策过程计算数据红利的方法,例如,根据过去类似情况下类似行动的平均结果来决定是否采取行动。第5节介绍了为使用最近邻模型进行分析的决策过程计算数据红利的方法,这些模型使用对样本的投票来决定要采取的行动。第6部分最后讨论了未来工作的潜在兴趣领域。2回顾:SHAPLEY值和OWEN值我们将使用SHAPLEY值[34]来评估单个数据示例的贡献,使用OWEN值[29]来评估示例集的贡献。因此,我们首先回顾这些价值观。

报纸
可人4 在职认证  发表于 2022-6-15 22:35:44
Bothinvolve平均了许多项,这些项在参与者数量上是指数级的,但我们的方法将收集这些项,以便计算是可行的。想象一下,一组参与者将共同创造一些价值。我们应该如何对待他们每一个人?一个想法是按照他们同意加入的顺序给予他们奖励,并给他们加入所产生的边际价值。然而,这可能导致僵局。例如,如果我们对一个完成的拼图进行估价,但对一个部分完成的d拼图没有价值,那么我们只会奖励放置最后一块拼图的人。因此,没有人会有动机将前两块拼图拼在一起,或者在拼图上做任何工作,只剩下一块拼图。即使他们这样做了,每个人都会偷偷地藏起来,试图得到最后一块拼图。如果你曾经遇到过这种情况,那么你就会理解这个问题。为了避免这种类型的问题,Shapley的见解是,通过对参与者可能决定参与的所有可能顺序进行平均,得出参与者的价值。在每个排序中,如果参与者决定在排序中位于他们之前的参与者之后和排序中位于他们之后的参与者之前加入,我们将评估他们的边际贡献。在一起做拼图的情况下,每个拼图块在拼图块排列的相等数量中排在最后:对于n个拼图块,(n-1)!, 这不是n!排列。因此,每一块都有一个相等的Shapley值,即完成拼图的值除以块数。参与者i的Shapley值的一般方程为:Eσ∈P[v(Si(σ))∪ {i} ()- v(Si(σ))],(1),其中P是1的置换集。

地板
可人4 在职认证  发表于 2022-6-15 22:35:48
,n对于n个参与者,σ表示置换,Si(σ)是σ中i之前的项目集,v(S)是值,如果由S索引的参与者都参与,而其他参与者不参与。有时,一组组参与者组成联盟,每个联盟作为一个团队决定是否参与。欧文的价值观通过对联盟成员的排列进行平均,以及在参与者联盟内对联盟成员的排列进行平均,来应对这一挑战。这为每个参与者提供了一个值,而一个条件的值是其参与者的值之和。设m为联盟数,l等C,Cmbe联盟中的参与者指数集。那么联盟h中参与者i的Owenvalue是:EσC∈PCEσh∈酸碱度v∪j∈Sh(σC)Cj∪ Si(σh)∪ {i}- v∪j∈Sh(σC)Cj∪ Si(σh), (2) 其中Pc是1,…,的置换集,m;Sh(σC)是置换σC中h之前的项目集;Phis是Ch中参与者指数的一组排列,Si(σh)是σh中i之前的一组指标。继续拼图示例,如果每个帮助拼图的人首先将一组块连接到拼图的m个区域,然后将这些区域连接在一起,那么一块的欧文值就是期望值,区域的过度置换与该块区域内的piec es的置换配对,如果该块被添加到区域间置换中其区域之前的区域和区域内置换中其区域之前的块的组合中,则产生的边际价值。联盟的欧文价值是其参与者的欧文价值之和。

7
可人4 在职认证  发表于 2022-6-15 22:35:51
在拼图的情况下,每个拼图的人的OwenEric Bax 4值是其所在区域中各块的Owen值之和。3关于置换的一些有用引理Shapley值和Owen值是置换的期望值,有效地计算它们需要收集置换的项。我们将使用以下两个引理来验证关于收集这些项的结果。(注:我们将称为“S的置换”,其中S是一个集合,表示S元素的置换。)引理3.1。对于T S、 T的每一个置换都是T的元素在S证明置换的等数中的排序。对于每一对置换ofT,具有T元素的置换与具有T元素的置换之间存在一对一的映射,T元素按照置换对中的第一个置换排序,而T元素按照第二个置换排序:移除T元素,然后将其重新插入相同的位置集,但顺序由置换对中的第二个置换给定。引理3.2。让我们,Smbe m不相交集,其中没有一个包含元素i。设t=| S∪. . .∪sm∪{i} |。让我们,带0的smbe整数≤ s≤ |S |,0≤ sm≤ |Sm |。设u=s+…+sm然后讨论了从S的置换中均匀随机抽取置换的可能性∪. . .∪sm∪{i} 元素i前面有S,…,的精确选择。,还有斯密斯特的污点t型- 1u-1.|S | S· · ·|Sm | Sm.证据对于一组特定的u元素,由S、…、组成,从山猫那里,有你!按排列的第一个u位置排序的方法,单个(1!)将elementi放置在位置u+1和(t)的方式- (u+1))!最后一个t中剩余元素的排序方法- (u+1)位置。

8
kedemingshi 在职认证  发表于 2022-6-15 22:35:54
因此,在i isu之前的一组特定u元素的概率是u!1.(t- (u+1))!t=屠!(t- 1.- u) 哦!(t- 1)!=t型t型- 1u-1、由S、…、组成的u元素特定集合的数量。。,SMS来自Smis|S | S· · ·|Sm | Sm.引理3.3。对于T S和S中的任何元素-T,相等数量的S的排列中,元素前面有0,1|T | T |的元素。证据设e为S中的任意元素-T在T的排列中∪ {e} ,e在每个位置1到T+1,对于相同数量的置换,因为e在一个位置,就有T!在剩余的| T |位置安排T元素的方法。但e在置换中的位置∪{e} 比e之前的元素数大一个,因此对于T的相同置换数,该数为0到| T |中的每一个∪ {e} 。只剩下证明每个置换∪ {e} 是它的元素在S的等数置换中的排序。但这是引理3.1,T∪ {e} 作为T。第一个引理意味着,如果我们随机选择S的一个置换,那么置换中T元素的顺序同样可能是T的每个置换。第二个引理提供了一种计算置换概率的方法,即特定元素isEric Bax 5减去不同集合中特定数量的元素。第三个引理意味着我们可以通过从单个元素开始构建S的随机排列,然后,对于每个剩余元素,从以下位置均匀随机选择插入位置:在第一个条目之前,在第一个和第二个之间,在第二个和第三个之间。。。,在最后一次之后。在我们继续讨论主要结果之前,请注意记法:对于组合,让ab公司如果b<0或b>a,则为零。

9
可人4 在职认证  发表于 2022-6-15 22:35:57
这将避免在具有组合项的求和中进行复杂的边界检查。4基于频率的决策假设有一组样本内示例,每个示例都有一个输入和一个标签。然后,对于一组或一系列样本外输入,基于统计或machine学习,使用样本内示例生成输出。每个输出,可能是分类、决策或核心,都会导致一些有价值的行动。n作用的值可以是正的、零的或负的。通常,在执行操作时,操作的值未知。然而,我们假设,在评估数据提供者的贡献时,可以稍后评估每个操作的价值。我们还假设我们可以评估未采取行动的价值。我们所说的基于频率的决策是指当提供样本外输入时,识别一组预先定义的箱子中包含该输入的过程,然后仅基于该箱子中样本中标签的频率生成输出。换句话说,如果两组不同的样本内示例在一个箱子中的标签上具有相同的频率,那么它们会为该箱子中的所有样本外输入生成相同的输出。也许最简单的基于频率的决策过程是使用一个单一的、通用的binand来标记每个样本外输入,以及样本内示例中最常见的标签。更复杂的箱子方案包括直方图【11】(第6.4节)和树,以不同的方式将输入空间划分为多个箱子。更复杂的决策方法或评分功能。

10
可人4 在职认证  发表于 2022-6-15 22:36:00
它们包括:除非频率符合统计信号的某些标准,否则不生成标签,生成给定频率的标签概率的下限或上限,生成给定频率和先验的标签概率的贝叶斯估计,生成平滑输出,如应用于阿拉贝尔相对频率的sigmo id,或者根据相对频率和样本数生成估计过程的输出。(有关估算程序的详细信息,请参阅[3、7、8、33、38]。)4.1 Shapley值例如,将x设为样本外输入,将y设为其标签。(请注意,y在决策和操作时是未知的,但在我们将值分配给样本中的示例之前是已知的。)在示例中,我们将在与x相同的箱子中为每个h导出Shapley值。例如,箱子旁边的值为零。要为用于多个样本外示例的样本内示例生成Shapley值,请对样本外示例的Shapley值求和。设n为与x位于同一箱子中的样本内示例数。设1,n将样本中的示例索引到与x相同的箱子中。为简单明了,请关注二进制c l a分配。(对于两个以上的标签值,概念是相同的,但表示法很难使用。)对于每个示例I∈ {1,…,n},设a(i)=1,b(i)=0,如果示例i的标签等于y,则a(i)=0,b(i)=1。设A是与x在同一个箱子中的样本内示例的索引集,不包括标签等于y(即与x相同的标签)的examplei。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 21:39