楼主: 何人来此
1423 24

[量化金融] 社交网络中的虚假新闻 [推广有奖]

21
可人4 在职认证  发表于 2022-6-1 06:23:35
TAMUZ(2015):“战略学习与社交网络拓扑”,《计量经济学》,第831755-1794页。国家情报局长办公室(2017):“评估俄罗斯在最近美国选举中的活动和意图的背景:分析过程和网络事件归因”,报告。萨顿、R.S.和A.G.巴托(1998):强化学习:导论,麻省理工学院出版社。A图0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5时间步长0.50.60.70.80.91.0无攻击的准确度:=0 Bayes optimalPrivate signal OptimalBaraBasicAlbertGraphDirectedStarCompleteFigure 1:在时间步长t测量的不同社交网络上的信息扩散,准确度为。结果显示了不同拓扑的社交网络和两个基准案例。Bayes最优基准是在每个代理观察平均私有信号s的极限下获得的。当每个代理只观察另一个私有信号s时,获得私有最优基准。所有四个网络(完整网络、星形、有向环和BarabasiAlbert图,m=3)都有| N |=10个代理,T=20个时间步,σ=1.0.00.51.0无攻击的成功学习,=1动作代理=1平均邻居动作0.00.51.0动作代理=20.00.51.0动作代理=30.00.51.0动作代理=40.00.51.0动作代理=50.00.51.0动作代理=60.00.51.0动作代理=70.00.51.0动作代理=80.00.51.0动作代理=92 4 6 10时间步长0.00.51.0动作代理=10图2:m=3的Barabasi-Albert图上的信息扩散。所有| N |=10个代理的平均邻居操作(绿色虚线)和代理i的操作(蓝色实线)。对于θ=1的声明为真,而θ=0的声明为假,这里的声明为真。

22
nandehutu2022 在职认证  发表于 2022-6-1 06:23:38
我们使用σ=1和T=20时间步。)0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5时间步长0.50.60.70.80.91.0攻击的准确度:=3 Bayes Optimal Private signal OptimalBaraBasicGraphDirectedLingstarCompleteFigure 3:在时间步长t测量的不同社交网络上的信息扩散,作为准确度。结果显示了β=3的相对较大的对手预算、不同的社会网络拓扑和两个基准案例。Bayes最优基准是在每个代理观察平均私有信号s的极限下获得的。当每个代理只观察她的私有信号s时,获得私有最优基准。所有四个网络(completenetwork、star、directed ring和Barabasi Albert graph,m=3)都有| N |=10个代理,t=20个时间步,σ=1.0.00.51.0在攻击下学习失败,=0动作代理=1被攻击的动作代理=5平均邻居动作0.00.51.0动作代理=20.00.51.0动作代理=30.00.51.0动作代理=40.00.51.0动作代理=50.00.51.0动作代理=60.00.51.0动作代理=70.00.51.0动作代理=80.00.51.0动作代理=92.5 5 5.0 7.5 10.0 12.5 15.0 17.5 20.0时间步长0.00.51.0动作代理=10图4:在m=3的Barabasi-Albert图上失败的信息扩散。所有| N |=10个代理的平均邻里关系(红色虚线)和代理i的操作(蓝色实线)。对于θ=1的声明为真,而θ=0的声明为假,这里的声明为假。我们使用σ=1和T=1,。。。,20时间步。得到了RN N=12的结果。)12345678 910受过训练的不带攻击,=312345678 910受过训练的不带攻击,=312345678 910受过训练的不带攻击,=312345678 910受过训练的不带攻击,=312345678 910受过训练的不带攻击,=312345678 910受过训练的不带攻击,=312345678 910受过训练的不带攻击,=312345678 910受过训练的不带攻击,=312345678 910受过训练的不带攻击,=312345678 910受过训练的不带攻击,=312345678 910受过训练的不带攻击,=30.00.10.20.30.4受过训练的不带攻击,=30.000.050.100.150.200.250.300.350.40受过训练的不带。

23
能者818 在职认证  发表于 2022-6-1 06:23:41
左列:代理在没有攻击者的情况下进行培训,然后在攻击者在场的情况下进行测试。Rightcolumn:代理在攻击者在场的情况下进行培训和测试。顶部:网络结构。每个节点的颜色对应于攻击该节点可能导致的准确度变化。底部:由于攻击代理j=1,…,导致精度变化,。。。,10.12345678 910不带训练的攻击,=312345678 910带训练的攻击,=312345678910受攻击的代理0.00.10.20.30.4不带训练的精确攻击,=312345678910受攻击的代理0.00.10.20.30.4受训练的精确攻击,=30.000.050.100.150.200.250.300.350.40精确攻击0.000.050.100.150.200.300.350.40图6:对代理j的攻击对信息扩散的影响。左列:代理在没有攻击者的情况下进行培训,然后在攻击者在场的情况下进行测试。Rightcolumn:代理在攻击者在场的情况下进行培训和测试。顶部:网络结构。每个节点的颜色对应于攻击该节点可能导致的准确度变化。底部:由于攻击代理j=1,…,导致精度变化,。。。,10.0.0 0.5 1.0 1.5 2.0 2.5 3.0受攻击的代理信号强度-bin中点0.000.020.040.060.080.100.120.14精度(相对值=0基线)=0.0=0.5=1.0=3.0图7:在m=3.0.0 0 0.5 1.5 2.0 2.5 3.0受攻击代理邻居信号强度-bin中点的BarabasiAlbert图上,作为攻击者信号强度函数的操纵效率点0.0250.0000.0250.0500.0750.1000.1250.1500.175精度(相对=0基线)=0.0=0.5=1.0=3.0图8:在m=3的BarabasiAlbert图上,作为攻击者信号强度函数的操纵效率。B Q学习B。1单代理强化学习在单代理RL中,代理的任务是最大化平均折扣效用Ut=PTt=0γtut。

24
mingdashike22 在职认证  发表于 2022-6-1 06:23:44
这里utis是时间t时代理的效用,用γ贴现∈ [0,1](Sutton和Barto,1998)。对于每个州xt∈ X代理在以下位置选择操作:∈ 概率为π(A | x)的A,其中π(A | x)是代理的策略。Q-学习依赖于动作值函数Q,该函数估计任何给定状态动作对的平均折扣率:Qπ(x,a)=E[Ut | xt=x,at=a]。对于任何样本,可以使用Bellman最优算子将当前估计值与贪婪的一步前瞻进行比较,T Q(x,a)=例如u+γmaxaQ(x,a)·。这个迭代过程产生了最优QfunctionQ*(x,a)=最大πQπ(x,a),这很容易定义最优策略π*(x,a)=δ(argmaxaQ*(x,a)- a) ,其中δ(·)是Dirac delta函数。DQN(Mnih等人,2015)使用φ参数化的神经网络来表示Qfunction。为了确保充分的探索,特工在培训期间从贪婪的策略中选择行动。从与环境的交互中收集一批经验后,更新参数以最小化DQN损失函数:L(φ)=bXj=1[(yDQNj-Q(xj,aj;φ))],(1)这里yDQNj=uj+γmaxajQ(xj,aj;φ-), 是目标函数和φ-是目标网络,其中包含参数的旧副本。该目标网络有助于稳定训练。到目前为止,我们假设代理可以访问系统的马尔可夫状态x。在部分可观察设置中,需要根据代理的动作观察历史来估计该状态。在复发性深度RL(Hausknecht和Stone,2015)中,这可以通过使用递归神经网络来实现,如LSTM(Hochreiter和Schmidhuber,1997)或我们在这里使用的GRU。B、 2多Agent强化学习和独立Q-学习在多Agent强化学习中,每个Agent∈ N接收私有观测O(x,i),其中i是代理索引,O是观测函数。

25
何人来此 在职认证  发表于 2022-6-1 06:23:47
代理还接收individualutility UIT并采取行动ait。此外,还讨论了连接动作的状态转移条件a∈ A.≡ 一在独立Q学习(IQL)中,每个agent进一步估计Q函数Qi(hi,ai),将其他agent及其策略视为非平稳环境的一部分。IQL通常在观察功能中使用代理间的参数共享和代理特定索引,以加速学习,同时仍允许政策的专业化。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 19:31