楼主: mingdashike22
1372 26

[量化金融] 计算数据红利 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-15 22:36:04
设B为与x相同箱子中的示例索引集,不包括与y具有不同标签的示例i。设v(a,B)为基于x的动作值,如果与x相同箱子中的insample示例恰好包含标签为y a的示例和标签为B的示例,则会产生输出。允许iv(a,b)是将示例i添加到bin的值变化,假设| a |=aEric Bax 6和| b |=b:iv(a,b)=v(a+a(i),b+b(i))- v(a,b)。设R是(a,b)对的集合,用于添加示例i更改值:R={(a,b)|iv(a,b),0}。调用R关键集。定理4.1。带标签y的样本外输入x上示例i的Shapley值为:~O(a,b)∈注册护士n- 1a+b-1.|A | A|B | B四(a、b)。证据从表达式1开始,即第2节中Shapley值的一般方程。值v(Si(σ))和v(Si(σ)∪ {i} )仅受与x位于同一箱子中的样本内示例的影响。根据引理3.1,所有示例的相同排列数包含thosen示例的每个排序。所以n上的平均值!这些示例的置换,而不是所有示例中示例的置换。根据引理3.2,a的指数和b的指数在i之前出现的概率n- 1a+b-1.|A | A|B | B.如果发生这种情况,iv(a,b)=v(Si(σ)∪ {i} ()- v(Si(σ))。将金额限制为(a,b)项∈ R仅避免使用iv(a,b)=0,因此它对总和没有影响。作为一个简单的例子,假设我们使用一个包含所有样本示例的单箱,一个输出多数标签的分类规则,如果没有主要,则没有输出,以及一个值函数,如果分类正确,则为10 0,如果分类不正确,则为500,如果没有输出,则为0。假设示例i有标签y。如果a=b,则将示例i添加到带有标签的示例和不带标签的示例的箱子中,则不会将任何输出转换为正确的分类。

12
能者818 在职认证  发表于 2022-6-15 22:36:07
类似地,如果a=b- 1,然后添加示例i,将分类错误变为无输出。所以R={(a,b)| a=b}∪ {(a,b)| a=b-1} ,并且示例i的Shapley值为:n~O{(a,b)| a=b}n- 1a+b-1.|A | A|B | B+n~O{(a,b)| a=b-1}n- 1a+b-1.|A | A|B | B.或者,如果示例i中没有标签y,则如果a=b+1,则添加该标签将根据正确的分类创建一个联系,损失为100;如果a=b,则根据联系创建一个错误的分类,损失为500。因此,Shapley值为:-n~O{(a,b)| a=b+1}n- 1a+b-1.|A | A|B | B-n~O{(a,b)| a=b}n- 1a+b-1.|A | A|B | B.同一个箱子中的所有样本示例的Shapley值均相同,且具有samelabel。此外,对于同一箱子中的所有样本外示例,每个样本内示例的Shapley值都是相同的,并且具有相同的la-bel。因此,在一组样本外示例上计算所有样本内示例的Shapley值只需要计算每个样本箱中任何样本内示例的Shapley值,每个标签对应每个样本箱中的样本外示例的Shapley值——对于每个样本箱的不同Shapley值计算,每个样本内标签和样本外标签的组合对应一个。Eric Bax 74.2示例集的Owen值假设一组联盟(例如,数据收集组织)各自为样本集中的示例共同分配子集。设m为联盟数,C,Cmbethe各联盟提供的样本示例中(bin内)的指数集。我们将计算样本示例中每个示例的欧文值,以及标签为y的样本示例x中的决策和操作的值。

13
kedemingshi 在职认证  发表于 2022-6-15 22:36:10
(该标签在决策时未知,但我们假设在计算数据值时已知。)样本内示例在一组样本外示例上的Owen值是每个样本外示例的Owen值之和。一个条件的Owen值是该条件贡献的样本内示例的Owen值之和。Owen值是嵌套的期望值、联盟的过度排列和每个联盟内样本示例的排列。我们将使用动态规划来解释联盟中的排列,然后使用上一节的结果来解释每个联盟中的排列过度示例。为了使表示法更简单,我们以联盟m(最后一个联盟)为例计算theOwen值。(对于其他联盟,我们可以简单地对联盟的指数进行重新排序,使利益联盟成为联盟m。)设pj,s,a,bbe,联盟的一个随机排列放置联盟C的s,…,的概率,cjbeforecm和其他cjbeforecm以及这些s联盟共同贡献了带有标签y的ain样本示例和带有其他标签的b示例。然后,根据定义,基本情况值为:p0、0、0、0=1和(s,a,b),(0,0,0):p0,s,a,b=0。下面的循环成立:引理4.2。设ajbe为cj索引的样本中具有标签y的示例数,bjbe为不具有标签y的示例数。然后pj,s,a,b=s+1j+1pj-1,s-1,a-aj,b-北京+日本- sj+1pj-1、s、a、b.证明。在联盟的排列中,第一个术语解释了之前的CJCM,第二个术语解释了之后的CJCM。从引理3.3中,在所有C的置换中,Cm,Cj前面同样可能是联盟C,…的0到j+1之间的每个数字。Cj公司-1和CM。如果是C的s,Cj公司-1在Cm之前come,如果C中的s或更少,则CJ也在Cm之前。

14
何人来此 在职认证  发表于 2022-6-15 22:36:15
,Cj-1和CM位于Cj之前。从0到s是s+1的可能性,因此CJ出现在Cmiss+1j+1之前的可能性。之后的概率为1-s+1j+1=j-sj+1。定理4.3。Letpa,b=m-1~Os=0pm-1,s,a,b。然后,样本示例i中的Owen值由带有标签y的样本输入x中的联合Cmon贡献:~O(a,b)∈R~O(a′,b′)| a′≤a、 b′≤双酚A-a′,b-b′厘米||厘米|- 1 | Am |+| Bm|-1.|Am | a′|Bm | b′型i(a,b),其中AMI是由Cm索引的示例集,不包括示例i,其具有标签y,BMI是不具有标签y的集合。Eric Bax 8证明。回想一下第2节表达式2中欧文值的定义(h=m forus)。引理4.2,pa-a′,b-b′是煤的置换的概率,即a置换中产生Cm的煤对a的贡献- 标签为y和B的示例中的箱子内的a′-b′无。通过引理3.1,我们可以只在Cm元素的置换上取内平均值,忽略任何出仓示例。根据引理3.2,带有标签y的示例的a′指数和不带标签的示例的b′指数在i之前的概率为| Cm||厘米|- 1 | Am |+| Bm|-1.|Am | a′|Bm | b′型.因此,结果是前面的联盟和来自CMPrevious itogether的示例贡献了一个带有标签y和b的示例,而没有标签y和b的概率。对于期望值,我们需要probabilitytimes值i(a,b)是加上示例i得到的边际值。最后,求和overR只去掉零值项。在每个联盟中,同一箱子中的示例和标签相同的示例具有相同的欧文值。此外,对于每个样本内示例,同一箱子中所有样本外示例的欧文值都是相同的,并且具有相同的标签。

15
可人4 在职认证  发表于 2022-6-15 22:36:18
因此,在一组样本外示例上计算allin样本示例的欧文值只需要计算coalition、bin、in-sample label和out-of-sample label的每个组合的欧文值。5个最近邻分类器要对每个样本外输入x进行分类,k-最近邻(k-nn)分类器首先识别k个最近邻,这是样本内示例,根据某种度量,输入最接近x。然后,分类器输出大多数k个最近邻居共享的标签。我们假设k是奇数和二元分类,因此在投票中没有联系。此外,我们假设metrichas一致性平局中断,以使相同x具有一致的邻居s。要使metricmeet满足此条件的概率为1,请使用实数增加每个输入,如果存在平局,则使用这些实数之间的距离来解决平局【12】。请注意,metric可以是任何接受两个示例输入并返回一个数字的函数–该度量不需要遵循三角形不等式,也不需要对称。5.1 k-最近邻的Shapley值设n为示例中的个数。通过指数1至n参考样本内示例。要计算样本外输入x分类中示例i的Shapley值和实际值y,请注意,将示例i添加到由S索引的一组样本内示例中可以影响两个不同W中的值:(1)如果S有k- 1示例,添加示例i使投票成为可能,并且(2)如果有k个或多个示例,则添加示例i可能会将k个最近邻居中的一个从S中替换出来,这可能会改变投票。我们将分别处理这些情况。对于案例(1),假设k-nn分类器在样本示例中的数量少于k,则不会做出决定。如果没有决定,则将vn设为值。

16
何人来此 在职认证  发表于 2022-6-15 22:36:22
设Vc为正确的c l分配值,Vw为不正确的c l分配值。如果| S |=k- 1,则v(S)=vn。此外,v(S∪ {i} )=V如果由S索引的示例上的大多数标签∪ {i} 是y和v(S∪ {i} )=否则为VW。引理5.1。让yi为示例i的标签,如果其参数为true,则让indicator函数i()为1,否则为零,并让具有标签y的样本内示例(不包括示例i)建立索引。然后,对Shapley值的贡献,例如i创建带标签y的样本外Bax 9input x的分类为:fi(x,y)=nn- 1公里- 1.-1.k-1.-I(yi=y)~Oa=0|A | An- 1.- |A | k- 1.- 一大众+k-1~Oa=k-1.-I(yi=y)+1|A | An- 1.- |A | k- 1.- 一vc公司-vnn。证据根据对称性,i位于k位置的置换分数为。对于这些置换,每组k- n中的1个- 1其他示例与第一个k相同- 1排列中的示例。k组- 1带K的示例-1.- I(yi=y)或更少带有标签y的示例一旦包含示例I进行k次投票,大多数标签都不等于y,因此v(S∪ {i} )=大众。标签为y的示例越多,则分类正确,因此v(S∪ {i} )=风险资本。在这两种情况下,我们必须减去v(S)=vn。对于案例(2),假设示例j是距离S中x最近的第k个neighb或x。(我们会说示例为inS表示其索引位于S中)。如果示例i比示例j更接近x,则示例i将示例j作为投票人,这可能会改变分级员的决定。

17
大多数88 在职认证  发表于 2022-6-15 22:36:26
当且仅当所有这些条件都成立时,将i添加到S会改变分类:o示例i比示例j更接近x,因此示例i将示例j替换为投票人。o示例i的标签与示例j不同,因此他们的投票方式不同正好是k的一半- 1 S中x的最近邻居有标签y,所以示例i更改了多数票。如果添加的示例i满足这些条件,并且示例i具有标签y,则v(S∪ {i} ()- v(S)=vc- vw,因为添加i纠正了不正确的分类。如果符合条件且没有标签y,则v(S∪ {i} ()- v(S)=vw- vc。引理5.2。让J为样本中的示例编制索引,这些示例具有与示例i不同的标签,并且到x的距离更大。如果示例i具有标签y,则让iv=vc-大众汽车;否则让iv=大众-vc。将比示例j和havelabel y更接近x的示例(不包括示例i)设为索引。将没有标签y的示例设为索引。然后将示例i的Shapley值更改为带标签y的样本外输入x的分类为:Дi(x,y)=~Oj∈ J | Aj |+| Bj |+2|Aj |+| Bj |+1k-1.|Aj | k-1.|北京| k-1.iv.证明。需要对J求和,以确保前两个条件,例如i改变投票结果。边际价值iv是更改投票的正确值。ByLemma 3.1,对于每个j,我们可以平均Aj的置换∪ 北京∪ {j}∪ {i} 示例中的rath er thanall。对于置换具有-Aj中的1个指数,准确地说是K-1在所有i之前的Bj、a和j中,应用引理3.2,其中S=Aj,S=Bj,and={j}:| Aj |+| Bj |+2|Aj |+| Bj |+1k-1.|Aj | k-1.|北京| k-1..=|Aj |+| Bj |+2|Aj |+| Bj |+1k-1.|Aj | k-1.|北京| k-1..定理5.3。标签为y的样本外输入x分类中示例i的Shapley值为:fi(x,y)+Дi(x,y)。Eric Bax 10证明。组合引理5.1和5.2。

18
大多数88 在职认证  发表于 2022-6-15 22:36:31
现在考虑如何计算定理5.3中所有示例的公式。术语sof fi(x,y)很容易计算,因为它们对于所有具有相同标签的示例都具有相同的值,它们是k或更少项上的和,并且对多个示例的唯一计算是确定有多少示例具有与y相同的标签。对于Дi(x,y),为了简化符号,假设示例按照它们与x的距离的顺序进行编号。换句话说,假设示例1最接近x,示例2第二接近x,依此类推。设ajbe是比具有标签y的示例j更接近x的示例数。然后| Aj |=Aj- I(yi=y),因为aj排除了示例I。类似地,让Bj是比没有标签y的示例j更接近x的示例数。然后| Bj |=Bj- I(yi,y)。由于yi=y或yi,y,| Aj |+| Bj |=Aj+Bj- 1、对于每个样本外示例(x,y),使用递归计算值aj和bj:a=b=0,aj=aj-1+I(yj-1=y),bj=bj-1+I(yj-1,y)。注意,Дi(x,y)等于i≡n~Oj=i+1I(yj,yi)aj+bj+1aj+bjk-1.aj公司- I(yi=y)k-1.北京- I(yi,y)k-1.iv.对于每个标签值u、letsi、u≡n~Oj=i+1I(yj,u)aj+bj+1aj+bjk-1.aj公司- I(u=y)k-1.北京- I(u,y)k-1.iv.然后si=si,yi。要计算u的每个值的si,uf,请使用递归:sn,u=0,and si,u=si+1,u+I(yi+1,u)ai+1+bi+1+1ai+1+bi+1k-1.ai+1- I(u=y)k-1.bi+1- I(u,y)k-1.iv.为了确保重复性保持不变,请从Sit的定义中注意,si仅为si+1,总和中有一个m或一个项,即j=i+1的项。使用此递归,可以在O(n)时间内为所有样本内示例计算每个样本外示例的Shapley值。如果我们按照距离x的距离的顺序对这些例子进行排序,那么时间就变成了o(n lg n)Eric Bax 115.2 Owen值k-最近邻假设C。

19
大多数88 在职认证  发表于 2022-6-15 22:36:34
,Cmindex由m个联盟提供的样本内示例,以形成完整的样本内示例集。我们将介绍一种方法,用于计算联盟m中样本示例i中所采取行动的欧文值(使符号更简单,且不损失g通用性,因为我们可以对联盟重新编号),该行动基于标签y的样本外输入x的k近邻分类。要计算联盟的欧文值,请对其示例的欧文值求和。从Owen值的部分开始,添加示例i更改决策,对应于Дi(x,y)。对于以j为索引的每个示例j,让qh,s,a,bbe为联合的概率超项,即C,…,之间的联合的概率超项,chprefore Cm和这些假设共同贡献了a由Aj索引的例子,b由Bj索引的例子,如果j<Cm,例子j。在不损失一般性的情况下,如果j<Cm,则让j∈ C、 (如有必要,对联盟重新编号。)I fj∈ Cmthen基本情况为:q0、0、0、0=1和(s,a,b),(0,0,0):q0,s,a,b=0。设ah=| Aj∩ Ch |。设bh=| Bj∩ Ch |。如果j<Cm,则基本情况为:q1、1、a、b=和(s,a,b),(1,a,b):q1,s,a,b=0。对于递归:引理5.4。qh,s,a,b=s+1h+1qh-1,s-1,a-啊,b-bh+h- sh+1qh-1、s、a、b.证明。这个循环与引理4.2中的循环非常相似。为了证明这一点,在引理4.2的证明中,只需将p替换为qan,j替换为h。引理5.5。Letqa,b=m-1~Os=0qm-1,s,a,b。设Jm=J∩ 厘米然后,在样本示例i中,将样本外输入x的knearest邻居分类决策更改为标签y的Owen值部分,假设该示例由联盟Cm贡献,则为:^Дm,i(x,y)=~Oj∈ J- Jm~O(a,b)| a≤am,b≤bmqk公司-1.-a、 k级-1.-bam+bm+1am+bma+b-1.ama公司bmb公司iv,+~Oj∈ Jm~O(a,b)| a≤am,b≤bmqk公司-1.-a、 k级-1.-b) am+bm+2am+bm+1a+b+1-1.ama公司bmb公司iv.证明。

20
能者818 在职认证  发表于 2022-6-15 22:36:37
总的来说,这些总和涵盖了J的总和,确保添加示例i可以改变投票结果。在这两个总和中,qk-1.-a、 k级-1.-B提供Cmin之前的联盟在联盟排列中提供的概率-1.-a来自Ajandk的示例-1.-b来自北京。对于第一个总和,之前的联盟提供j,因此CMP只需要在联盟CMPermution中的元素i之前提供a和b的bmelements,以便在没有j的情况下进行平局投票。根据引理3.1,只有置换的概率(Aj∩ 厘米)∪ (北京)∩ 厘米)∪ {i} 需要考虑。根据引理3.2,在示例i之前,Cmcontributions创建没有j的平局的可能性是isam+bm+1am+bma+b-1.ama公司bmb公司.Eric Bax 12对于第二个和,在联合置换中j必须排在i之前,a的a和b的b也必须排在前面。根据引理3.1,只有(Aj)的置换∩ 厘米)∪ (北京)∩ 厘米)∪ {j}∪ {i} 需要考虑。引理3.2,S=Aj∩ 厘米,S=Bj∩ Cm,S={j},示例i之前的Cmcontributions(不包括j)创建平局的概率,并且j也在i之前,isam+bm+2am+bm+1a+b+1-1.ama公司bmb公司=am+bm+2am+bm+1a+b+1-1.ama公司bmb公司.现在,考虑一下Cmcreating a Classifications(通过在Classifier中创建第k个示例)中示例i的Owen值部分。(该部分对应于fi(x,y)。)如前所述,让Aindex为样本中的示例(不包括示例i)编制有标签y的索引。让B为没有标签y的示例编制索引。重用一些符号,用A和B代替Ajand Bj:letah=| A∩ Ch |和BH=| B∩ Ch |。根据前面给出的公式,使用这些值计算qh、s、a、频带qa。然后,qa,bithe概率在联盟的排列上,即在cma之前的联盟有一个带标签y的样本,而在cma之前的联盟没有标签b。引理5.6。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 23:49