社交网络中的虚假新闻 - 第3页 - 外文文献专区

21楼

发表于 2022-6-1 06:23:35

TAMUZ（2015）：“战略学习与社交网络拓扑”，《计量经济学》，第831755-1794页。国家情报局长办公室（2017）：“评估俄罗斯在最近美国选举中的活动和意图的背景：分析过程和网络事件归因”，报告。萨顿、R.S.和A.G.巴托（1998）：强化学习：导论，麻省理工学院出版社。A图0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5时间步长0.50.60.70.80.91.0无攻击的准确度：=0 Bayes optimalPrivate signal OptimalBaraBasicAlbertGraphDirectedStarCompleteFigure 1：在时间步长t测量的不同社交网络上的信息扩散，准确度为。结果显示了不同拓扑的社交网络和两个基准案例。Bayes最优基准是在每个代理观察平均私有信号s的极限下获得的。当每个代理只观察另一个私有信号s时，获得私有最优基准。所有四个网络（完整网络、星形、有向环和BarabasiAlbert图，m=3）都有| N |=10个代理，T=20个时间步，σ=1.0.00.51.0无攻击的成功学习，=1动作代理=1平均邻居动作0.00.51.0动作代理=20.00.51.0动作代理=30.00.51.0动作代理=40.00.51.0动作代理=50.00.51.0动作代理=60.00.51.0动作代理=70.00.51.0动作代理=80.00.51.0动作代理=92 4 6 10时间步长0.00.51.0动作代理=10图2：m=3的Barabasi-Albert图上的信息扩散。所有| N |=10个代理的平均邻居操作（绿色虚线）和代理i的操作（蓝色实线）。对于θ=1的声明为真，而θ=0的声明为假，这里的声明为真。

22楼

nandehutu2022

发表于 2022-6-1 06:23:38

我们使用σ=1和T=20时间步。）0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5时间步长0.50.60.70.80.91.0攻击的准确度：=3 Bayes Optimal Private signal OptimalBaraBasicGraphDirectedLingstarCompleteFigure 3：在时间步长t测量的不同社交网络上的信息扩散，作为准确度。结果显示了β=3的相对较大的对手预算、不同的社会网络拓扑和两个基准案例。Bayes最优基准是在每个代理观察平均私有信号s的极限下获得的。当每个代理只观察她的私有信号s时，获得私有最优基准。所有四个网络（completenetwork、star、directed ring和Barabasi Albert graph，m=3）都有| N |=10个代理，t=20个时间步，σ=1.0.00.51.0在攻击下学习失败，=0动作代理=1被攻击的动作代理=5平均邻居动作0.00.51.0动作代理=20.00.51.0动作代理=30.00.51.0动作代理=40.00.51.0动作代理=50.00.51.0动作代理=60.00.51.0动作代理=70.00.51.0动作代理=80.00.51.0动作代理=92.5 5 5.0 7.5 10.0 12.5 15.0 17.5 20.0时间步长0.00.51.0动作代理=10图4：在m=3的Barabasi-Albert图上失败的信息扩散。所有| N |=10个代理的平均邻里关系（红色虚线）和代理i的操作（蓝色实线）。对于θ=1的声明为真，而θ=0的声明为假，这里的声明为假。我们使用σ=1和T=1，。。。，20时间步。得到了RN N=12的结果。）12345678 910受过训练的不带攻击，=312345678 910受过训练的不带攻击，=312345678 910受过训练的不带攻击，=312345678 910受过训练的不带攻击，=312345678 910受过训练的不带攻击，=312345678 910受过训练的不带攻击，=312345678 910受过训练的不带攻击，=312345678 910受过训练的不带攻击，=312345678 910受过训练的不带攻击，=312345678 910受过训练的不带攻击，=312345678 910受过训练的不带攻击，=30.00.10.20.30.4受过训练的不带攻击，=30.000.050.100.150.200.250.300.350.40受过训练的不带。

23楼

能者818

发表于 2022-6-1 06:23:41

左列：代理在没有攻击者的情况下进行培训，然后在攻击者在场的情况下进行测试。Rightcolumn：代理在攻击者在场的情况下进行培训和测试。顶部：网络结构。每个节点的颜色对应于攻击该节点可能导致的准确度变化。底部：由于攻击代理j=1，…，导致精度变化，。。。，10.12345678 910不带训练的攻击，=312345678 910带训练的攻击，=312345678910受攻击的代理0.00.10.20.30.4不带训练的精确攻击，=312345678910受攻击的代理0.00.10.20.30.4受训练的精确攻击，=30.000.050.100.150.200.250.300.350.40精确攻击0.000.050.100.150.200.300.350.40图6：对代理j的攻击对信息扩散的影响。左列：代理在没有攻击者的情况下进行培训，然后在攻击者在场的情况下进行测试。Rightcolumn：代理在攻击者在场的情况下进行培训和测试。顶部：网络结构。每个节点的颜色对应于攻击该节点可能导致的准确度变化。底部：由于攻击代理j=1，…，导致精度变化，。。。，10.0.0 0.5 1.0 1.5 2.0 2.5 3.0受攻击的代理信号强度-bin中点0.000.020.040.060.080.100.120.14精度（相对值=0基线）=0.0=0.5=1.0=3.0图7：在m=3.0.0 0 0.5 1.5 2.0 2.5 3.0受攻击代理邻居信号强度-bin中点的BarabasiAlbert图上，作为攻击者信号强度函数的操纵效率点0.0250.0000.0250.0500.0750.1000.1250.1500.175精度（相对=0基线）=0.0=0.5=1.0=3.0图8：在m=3的BarabasiAlbert图上，作为攻击者信号强度函数的操纵效率。B Q学习B。1单代理强化学习在单代理RL中，代理的任务是最大化平均折扣效用Ut=PTt=0γtut。

24楼

mingdashike22

发表于 2022-6-1 06:23:44

这里utis是时间t时代理的效用，用γ贴现∈ [0,1]（Sutton和Barto，1998）。对于每个州xt∈ X代理在以下位置选择操作：∈ 概率为π（A | x）的A，其中π（A | x）是代理的策略。Q-学习依赖于动作值函数Q，该函数估计任何给定状态动作对的平均折扣率：Qπ（x，a）=E[Ut | xt=x，at=a]。对于任何样本，可以使用Bellman最优算子将当前估计值与贪婪的一步前瞻进行比较，T Q（x，a）=例如u+γmaxaQ（x，a）·。这个迭代过程产生了最优QfunctionQ*（x，a）=最大πQπ（x，a），这很容易定义最优策略π*（x，a）=δ（argmaxaQ*（x，a）- a），其中δ（·）是Dirac delta函数。DQN（Mnih等人，2015）使用φ参数化的神经网络来表示Qfunction。为了确保充分的探索，特工在培训期间从贪婪的策略中选择行动。从与环境的交互中收集一批经验后，更新参数以最小化DQN损失函数：L（φ）=bXj=1[（yDQNj-Q（xj，aj；φ））]，（1）这里yDQNj=uj+γmaxajQ（xj，aj；φ-), 是目标函数和φ-是目标网络，其中包含参数的旧副本。该目标网络有助于稳定训练。到目前为止，我们假设代理可以访问系统的马尔可夫状态x。在部分可观察设置中，需要根据代理的动作观察历史来估计该状态。在复发性深度RL（Hausknecht和Stone，2015）中，这可以通过使用递归神经网络来实现，如LSTM（Hochreiter和Schmidhuber，1997）或我们在这里使用的GRU。B、 2多Agent强化学习和独立Q-学习在多Agent强化学习中，每个Agent∈ N接收私有观测O（x，i），其中i是代理索引，O是观测函数。

25楼

何人来此

发表于 2022-6-1 06:23:47

代理还接收individualutility UIT并采取行动ait。此外，还讨论了连接动作的状态转移条件a∈ A.≡ 一在独立Q学习（IQL）中，每个agent进一步估计Q函数Qi（hi，ai），将其他agent及其策略视为非平稳环境的一部分。IQL通常在观察功能中使用代理间的参数共享和代理特定索引，以加速学习，同时仍允许政策的专业化。

[量化金融] 社交网络中的虚假新闻 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群