楼主: 何人来此
1419 24

[量化金融] 社交网络中的虚假新闻 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-1 06:23:06
为了引起人们的注意,同时也为了确保他们将来能从邻居那里得到信息丰富的消息。这与Lee et al.(2011)的经验证据一致,Lee et al.(2011)表明,用户分享新闻是因为他们的信息不丰富。其次,我们假设代理接收到一个信息丰富的私人信号,这是文献中的一个标准假设。如果没有信息丰富的私人信号,我们就不应该期望特工最终了解世界的真实状态。进一步注意,我们对代理人按照索赔的真实性行事的可能性持保留意见。也就是说,考虑到效用函数的设置,代理对选择正确的操作感兴趣。在现实生活中,代理人可能不一定主要对真相感兴趣,但他们声称自己的私人信仰得到了证实。第三,我们假设强化学习很好地近似于一个代理的行为,该代理面临我们模型中所述的激励。强化学习确保代理的行为与其激励相容,并在代理熟悉的环境中接近最优。然而,我们认为强化学习也可以接受有限理性的要素。特别是,当特工面临陌生情况时,比如有对手在积极推送假新闻,学到的政策可能是不合适的,并使特工容易受到操纵。边界理性的这一特征使强化学习非常适合我们的情况。信息传播有时被称为社会学习。

12
nandehutu2022 在职认证  发表于 2022-6-1 06:23:09
不过,为了避免与强化学习混淆,我们在整个过程中使用了“信息扩散”一词。参数描述值γ折现率0.95T时间步长20N代理数10m大小隐藏状态12σ信号方差1^2探索率0.05学习率-5×10-4训练集-50000RNN单元(隐藏状态)-选通循环单元(GRU)#RNN层-2表1:模型和深度Q学习参数。3测量信息扩散在本文剩余部分的分析中,神经网络的参数在训练收敛后(50000次训练后)保持不变。在研究信息扩散之前,我们必须就衡量信息扩散的方法达成一致。直观地说,如果给定状态命中,代理i应该选择与θ值对应的动作,可能性最大。这意味着代理人的行为隐含地反映了她对索赔是真是假的可能性的信念。如果声明更可能为真而不是假,则代理应选择ai=1,否则选择ai=0。随着时间的推移,代理观察邻居的行为,他们会隐式地了解邻居的信号、邻居的信号等等。因此,我们可以通过计算平均准确度来轻松衡量社交网络中的信息扩散程度,平均准确度定义为代理的阶段效用分数之和,即=NXiuit=NXinait=θo。这种准确度衡量方法获得的任何值都可以与两个基准进行对比。首先,假设每个代理都必须仅根据其私人信号采取行动。在这种情况下,如果si>0.5,贝叶斯最优策略为ait=1,如果si<0.5,则为ait=0,否则为随机(0或1)。该策略的精度为A=Pr(si>0.5 |θ=1)。现在假设代理能够完美地共享他们的私人信号,这样他们就可以计算出平均信号b=Pjsj/| N |。

13
mingdashike22 在职认证  发表于 2022-6-1 06:23:11
然后,贝叶斯最优策略是简单的ait=1 ifbs>0.5,ait=0 ifbs<0.5,否则为随机策略。该策略的精度为AN=Pr(bs>0.5 |θ=1)。对于一个好的政策,我们应该期望随着时间的推移,政策会得到改善,从而≈ 而且≈ 安。也就是说,首先,代理仅根据其私人信号采取最佳行动,然后随着时间的推移,当他们向邻居学习时,接近完整的信息基准。图1显示了四种不同网络拓扑的精度度量At:星形网络、有向环、完整网络和带有边附着参数3的Barabasi-Albert随机(优先附着)图实例。在本文中,我们将后者作为社交网络图的典型示例。图1显示,代理可以优化使用其私人信息,然后从邻居的行为中学习,接近完整的信息基准。如果网络直径很小,对于完整的网络,这个过程非常快,并且在一个时间步长内不超过Bayes最优解的10%。然而,如果网络直径较大,对于有向环,仅在大约12个时间步之后,解才在Bayes最优策略的10%以内。然而,从长远来看,有向环的精度似乎稳定在一个非常接近贝叶斯最优精度的水平上,并且相对于其他网络更高。在图2中,我们显示了Barabasi-Albert图的代理在一次运行中的操作。一些代理最初选择错误的操作,但从邻居的操作中学习,并最终收敛到正确的操作。绿色虚线显示代理邻居的平均操作,它们从t=6开始收敛到正确的操作。一个有趣的模式是,一些代理多次切换其决策。

14
何人来此 在职认证  发表于 2022-6-1 06:23:14
例如,代理i=4从错误的操作开始,然后切换到正确的操作,但可能有一个aweak私有信号,因此一旦她观察到她的邻居选择了不同的操作,她就会在t=3中再次切换到错误的操作。然后她意识到她的邻居平均都改变了他们的行为,当行为开始趋同时,她会切换到正确的行为。4未知情的对手假设一个代理的私有信号被对手操纵,使其与θ的真值成偏差。例如,对手可以显示有利于对手观点的针对代理的广告。目前,特工们还没有在有顾问在场的情况下接受培训,也就是说,他们没有意识到这种可能性。我们假设对手以单个代理为目标进行干预,使该代理的专用信号变为“si=si+β(1- 2θ),其中β可以解释为对手的预算:β越大,代理的信号越偏离θ的真实值。现在让我们假设对手没有关于代理的信息,因此随机选择一个代理进行操作。在图3中,我们展示了在β=3的相对较大的对手预算情况下的学习精度。正如所料,学习受到严重影响。事实上,在定向的情况下,学习会一起失败,操作非常成功。在图4中,我们显示了单次运行的代理操作。仅根据他们的私人信号,10个代理中就有7个最初选择了新节点与现有节点形成的边数。请注意,代理之间的平均邻居操作非常相似。这表明网络连接良好,代理可以从很大一部分人群中进行采样。

15
大多数88 在职认证  发表于 2022-6-1 06:23:17
随着网络规模的扩大,代理将从人口中的一小部分进行抽样,而代理的邻居的平均行为将具有更多的异质性。正确的操作。然而,随着时间的推移,攻击者能够左右整个人群,使其采取错误的行动(即,支持实际上为假θ=0的声明a=1)。5知情的对手在第4节中,我们表明操纵社交网络中的一个节点可以对最终的群体准确性产生很大影响。接下来,我们研究了如果对手能够获得代理的私人信仰和网络结构,那么攻击的效果可以提高多少。首先,这是相关的,因为社交网络中存在针对性广告的技术;其次,有报道称,这一技术已被应用于影响脱欧公投和美国大选。为了研究这一点,我们计算操纵效率的条件是:(i)攻击网络中的特定代理,(ii)攻击具有特定信号强度的代理,以及(iii)攻击其邻居具有特定信号强度的代理。在分析这个问题时,我们可以假设一个“天真”的群体,或者一个知道有对手操纵代理的群体,如第4节所述,通过使用偏差信号随机瞄准群体中的代理。我们认为,如果一个群体通过强化学习在其存在的情况下接受了训练,那么它就会意识到对手的存在。5.1基于网络位置的攻击让我们首先考虑这样一种情况,即对手拥有有关网络结构的信息,并希望根据其预算确定要操纵哪个代理。我们将操纵效率定义为时间t的基线准确度与攻击下的准确度之间的平均差异。

16
何人来此 在职认证  发表于 2022-6-1 06:23:20
用“At(i)”表示时间t的准确性,条件是代理i被对手接管。操纵效率定义为:A(i)=TXt(At-\'(i)处)。在图5和图6中,我们展示了我们对天真和操纵感知人群的结果。在左边的小组中,两个人物的特工都是在没有对手在场的情况下接受训练的,而在右边的小组中,特工是在有顾问在场的情况下接受训练的。在这两种情况下,我们都显示了对网络中特定节点的攻击的操纵性。图5(Barabasi-Albert图,边附着参数为3)和图6(星形网络)之间的差异在于网络结构。如果该系统在没有对手的情况下进行训练,攻击将非常成功,导致Barabasi-Albert图的准确率在7%-20%之间,而theSee的准确率在10%-40%之间,例如,卫报2017年5月7日,“英国脱欧大劫案:我们的民主如何被劫持”https://www.theguardian.com/technology/2017/may/07/the-great-british-brexit-robbery-hijacked-democracy2017年8月9日访问。星形网络。了解网络结构可以极大地提高操作效率。这在星形网络中尤其明显,其中以中心节点为目标最有效。这些结果还表明,网络结构本身会影响操纵的效率,非常集中的网络比分散的网络更容易受到操纵。直觉很简单:如果星形中的中心节点受到攻击,所有只有一个邻居的外围节点都很容易转向错误的操作。即使外围节点受到攻击,也只需说服中心节点使系统更有可能切换到非状态匹配操作。如前所述,如果系统在Adversary在场的情况下进行训练,效果会小得多。

17
kedemingshi 在职认证  发表于 2022-6-1 06:23:23
在这种情况下,代理学会了更加小心地对待其邻居的行为,因为其中一个邻居可能会受到攻击,因此受到攻击时的准确率变化要低得多(在0%到12%之间)。此外,代理人可能会对他们的私人信号给予较少的重视,这可能是有偏见的。5.2基于私人信号的攻击下一步,我们考虑当对手掌握有关代理私人信号的信息时的操纵效果。为此,我们将代理人的信号强度定义为信号的绝对对数似然比,即:z(s)=log f(s |θ=0,σ)- log f(s |θ=1,σ)|,其中f(x |u,σ)是具有平均u和方差σ的正常pdf。接下来,我们计算攻击者在某个区间z内具有信号强度的准确度条件∈ [z,z]和a预算β:At(z,z,β)。请注意,信号强度是使用“预偏置”信号来计算的,而不是受攻击代理观察到的偏置信号。然后将操纵效果定义为A(z,z,β)=TXt?At(z,z,0)- 在(z,z,β)c。我们将操纵效率定义为附件邻居的平均信号强度的函数。在图7和图8中,我们展示了我们仅针对天真人群的结果。结果是十次独立运行的平均值和标准偏差,z(s)的固定仓位边界为{0.0,0.5,1.0,2.0,4.0}。图7显示了根据被攻击代理的信号强度改变AttackerBudget的结果。总的来说,在攻击者预算的不同值中,被攻击代理的信号强度会降低攻击有效性。对于较大的预算(β=3),对于较小的信号强度,攻击有效性趋于平稳。我们将该区域的小非单调性归因于测量噪声。

18
何人来此 在职认证  发表于 2022-6-1 06:23:26
这是意料之中的事,因为在某个时候,被攻击的特工有偏见的私人信号总是会导致他采取错误的行动。超过这一点,准确度不可能进一步下降。在平台区域之外,攻击弱信号代理可以提高攻击效率,相对于随机攻击而言,这是两个因素。结果类似,当攻击者根据被攻击代理的邻居的平均信号强度进行攻击时,见图8。请注意,这里的有效性随着信号强度的下降而快速增加。这是因为,由于我们的网络很小,低平均邻居信号对应于大部分网络接收弱信号的状态。在这种状态下,攻击可能非常有效,并导致准确度大幅下降。这也解释了为什么攻击有效性超出了图7中的平台;对于低信号状态,操作范围更大。与图7不同的是,当β=3时,曲线不会趋于平稳。受攻击的代理并不总是为所有可能的信号选择错误的操作。6结论社交网络中虚假信息的传播有可能影响英国脱欧公投或美国总统大选等重大政治事件。在本文中,我们通过网络社交学习来模拟虚假新闻的传播。本文的主要技术创新是通过多agent深度强化学习来优化社会网络中agent的行为。这允许一组丰富的代理策略,如果代理与所有其他代理共享其私有信号,则这些策略在一定程度上可以与Bayes最优策略一样执行。在另一个基准测试中,我们的模型的性能与Bayes最优策略一样好,在该策略中,代理根本不能共享其私有信号。

19
何人来此 在职认证  发表于 2022-6-1 06:23:29
虽然目前仍处于初级阶段,但我们认为,对社会和经济主体的行为建模的强化学习方法正在取得进展。未来的研究应侧重于将这种方法扩展和改进到大规模的模型社会系统。从社会的角度来看,我们论文的主要贡献在于,我们为研究fakenews对社会网络的脆弱性提供了一个计算框架的起点。我们使用此框架可以直观地了解攻击者如何利用社交网络上用户的私人信息来有效地针对有影响力的活动。考虑到在我们的模型中,关于用户信念和网络连通性的信息会影响社交网络上错误信息的传播,监管机构和服务提供商应该考虑更严格地控制对此类信息的访问。此外,我们还说明,一旦用户意识到社交网络中虚假新闻的存在,他们就可以适应并减少对其传播的怀疑。因此,认识到虚假新闻的存在对于打击这一问题至关重要。参考Acemoglu,D.、A.OZDAGLAR和A.PARANDEH-GHEIBI(2010):“社交网络中(mis)信息的传播”,《游戏与经济行为》,第70194–227页。BANERJEE,A.(1992):“羊群行为的简单模型”,107,797–817。巴斯托(BARSTOW,D)(2008):“电视分析师背后,五角大楼的隐藏之手”,《纽约时报》,2008年4月20日,1。BIKHCHANDANI,S.、D.HIRSHLEIFER和I.WELCH(1992):“作为信息级联的时尚、时尚、习俗和文化变化理论”,《政治经济学杂志》,100992-1026。CHO,K.、B.VAN MERRI"ENBOER、D.BAHDANAU和Y.BENGIO(2014):“关于神经机器翻译的特性:编码器-解码器方法”,arXiv预印本arXiv:1409.1259。DEGROOT,M.H。

20
大多数88 在职认证  发表于 2022-6-1 06:23:32
(1974):“达成共识”,《美国统计协会杂志》,第69118-121页。FOERSTER,J.、Y.M.ASSAEL、N.DE FREITAS和S.WHITESON(2016):“学习与深度多智能体强化学习进行交流”,神经信息处理系统进展,2137–2145。GOLUB,B.和M.O.JACKSON(2010):“社交网络中的天真学习和群体智慧”,《美国经济杂志:微观经济学》,2112-149。GOLUB,B.和E.SADLER(2016):《社交网络学习》,牛津网络经济学手册。HAUSKNECHT,M.和P.STONE(2015):“部分可观察EMDP的深度循环Q学习”,智能代理的顺序决策-AAAI 2015年秋季研讨会论文。HOCHREITER,S.和J.SCHMIDHUBER(1997):“长期-短期记忆”,《神经计算》,91735-1780年。JOWETT,G.S.和V.O\'DONNELL(2015):宣传与说服,SAGE出版社,第六版ed.LECUN,Y.,Y.BENGIO和G.HINTON(2015):“深度学习”,《自然》,521436–444。LEE、C.S.、L.MA和D.H.-L.GOH(2011):“为什么人们在社交媒体上分享新闻?”在国际主动媒体技术会议上,129–140。MNIH,V.,K.KAVUKCUOGLU,D.SILVER,A.A.RUSU,J.VENESS,M.G.BELLEMARE,A.GRAVES,M.RIEDMILLER,A.K.FIDJELAND,G.OSTROVSKI,S.PETERSEN,C.BEATTIE,A.SADIK,I.ANTONOGLOU,H.KING,D.KUMARAN,D.WIERSTRA,S.LEGG和D.HASSABIS(2015):“通过深度强化学习进行人类水平控制”,《自然》,518529–533。MOLAVI,P.、A.TAHBAZ-SALEHI和A.JADBABAIE(2017):“非贝叶斯社会学习的基础”,哥伦比亚大学mimeo。MOSSEL,E.、A.SLY和O。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 04:36