楼主: 大多数88
1280 29

[经济学] 双盲与开放审查:一个模拟 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-4-24 10:18:08
首先,我们希望对有限理性的参与者进行建模,以反映在复杂不透明的环境(如出版市场)中做出决策的不确定性和普遍困难。因此,我们将采用一个概率模型,其中在作者选择出版策略时存在随机因素。使用分析工具很难确定这样一系列游戏的最终演变,因此我们使用模拟。其次,我们主要感兴趣的是系统化作者和评论者的想法,以及他们的动态趋势。我们也希望通过为进一步的研究提供基础来刺激这方面的更多工作,这些研究可以转化为更现实、更有用的模型,这些模型的分析性质可能与政策选择有关。我们的模型是实现这些目标的merelyan探索工具,因此其精确的形式属性与我们的目标相切。从作者的角度来看,审稿人是由编辑随机分配给他们的。在选择研究策略(更多或标准杆数)时,作者必须考虑到大量的信息,包括他们的经验和他们的同龄人。为了将这种情况纳入我们的模型中,我们使用了一个基于代理的模型,作者可以在其中更新他们的策略。该模型代表了一批作者和一批评论者之间的互动,这些评论者被反复匹配以玩autho rreviewer游戏。每个作者最初被分配到集合e=(0.3,0.4,0.5,0.6,0.7,0.8)中的六个功能级别中的一个。每个评审员最初被分配到集合T=(0.2,0.3,0.4,0.5,0.6,0.7)中的六个接受阈值中的一个。这种设置确保每个作者至少被两种类型的审稿人接受,反映出作者不确定审稿人需要什么。

12
何人来此 在职认证  发表于 2022-4-24 10:18:14
我们设定这两个群体包含1800名代理人:这种选择的一个优点是,每个作者都有一个广泛的同龄人群体,他们可能会采取非常不同的策略。在过去60年中,在大多数学科中,贡献作者的数量从一个小社区增长到了一个更大的群体[Hamermesh,2013]。在初始填充状态下,每个策略和工作级别分配给300个代理。这样做是为了消除可能有利于某些类型代理人的任何艺术偏见。我们使用概率策略修正程序:在每一轮游戏中,每个代理获得策略修正机会的概率为0.122。这个数字意味着,平均而言,每一轮都有机会修改策略。修订程序是模仿的。一旦代理人有机会修改策略,他/她将编制一份包含n名候选人的列表,其中包括n名候选人- 1随机挑选代理人和策略修订代理人本人。因此,与不太受欢迎的策略相比,被更多代理使用的策略更有可能被随机选择的候选人使用。这反映了随大流的力量:作者这样做的一个原因是,策略的普及可能是由于其过去的进化成功。每个候选人针对每种类型的对手进行代理人审查博弈,策略修订代理人观察每个候选人获得的平均报酬。因此,策略修正代理获得一个候选记录(s,π)-一个n×2矩阵,其中第一列s:={sh}nh=1是策略记录,第二列π:={πh}nh=1是平均支付记录,记录的第h行是一对(sh,πh),描述了在修正代理的hth观察中执行的策略和获得的平均支付。

13
mingdashike22 在职认证  发表于 2022-4-24 10:18:21
如果strategy revisingagent cho从有限的策略集合S=(1,…,m)中选择,并使用策略i∈ S、 logit choice Protocold定义了AGE nt切换到strategyj的可能性∈ S为σij(S,π)=Ph:sh=jexpη-1πh主键∈SPh:sh=kexp(η)-1πh)。(5) 对于日期选择,我们假设n=31。这是一个近似的例子,我们将提交给经济学期刊的资料作为这张图的灵感来源。虽然无法获得所有经济学期刊的投稿总数数据,但2011年排名前五位的期刊各收到1160份投稿。低质量期刊的提交数量自然会少得多[Card and DellaVigna,2013]。logit选择模型为最佳反应学习规则添加了随机性元素。为了按照后一种规则进行操作,代理根据策略过去的相对性能为其分配概率,规则告诉他们如何根据策略的概率做出决策。logit选择模型增加了一个噪声因子η,agent将选择随机策略。换句话说,η是一个噪声项,在我们的模型中,它代表了随着时间的推移,代理人对新数据的战略反应中的有界理性。关于广泛的讨论,请参见[Blume,1997年,Fudenberg and Levine,2007年,Hoffauer and Sandholm,2007年]。现实情况:研究人员可以评估同龄人的福利水平,但不能太多。例如,通过深入阅读一篇文章,可以了解作者在文章中投入了多少精力,但不能在给定的时间跨度内阅读大量文章。我们设置了一个较低的logit noiselevelη=0.044。此外,我们假设每个玩家可以随机切换到任何策略,并且该事件的概率设置为0.008。

14
何人来此 在职认证  发表于 2022-4-24 10:18:28
低噪音水平和随机策略改变的低概率代表了我们的假设,即玩家是聪明和深思熟虑的,所以他们在选择自己的工作级别时很少出错。每次模拟进行了13000轮。这个庞大的回合数有助于确定特定游戏的长期趋势。对于模拟,我们假设作者-评论者游戏中的一些参数值是固定的。α和β的值设为0.1。我们对参数使用了四个值-0.1、0.2、0.3和0.4。对于的每个值,我们使用了参数δ-0、0.1、0.2和0.3的四个值,以及参数u-0、0.2、0.4、0.8和1.6的五个值。因此,通过固定成本,我们可以隔离制度环境的影响以及它如何塑造声誉效应。对于模拟,我们使用[Izquierdo等人,2019]开发的NetLogo Abed模拟软件包。2.3模拟结果我们现在展示了通过我们在NetLogo软件上计划的模拟获得的结果。在模拟之前,对于和a的每个值,根据我们考虑的所有参数组合(即δ和u),我们用Python 3脚本计算了20个支付矩阵——所有bea-ring维度均为6×6(例如,见表(1)和表(2)中的两个示例)。使用Python库Nashpy[Knight and Campbell,2018],我们研究了每个Payoff矩阵中纯策略中Nash均衡的存在性和数量。

15
mingdashike22 在职认证  发表于 2022-4-24 10:18:35
对于为={0.1,0.2}计算的那些矩阵,我们总是在纯策略中发现多个纳什均衡,而对于为={0.3,0.4}计算的其他矩阵,我们注意到了不同的结构:除了所有以δ=0为标志的情况下有6个纳什均衡,所有其他矩阵的特征是具有唯一的纳什均衡纯策略。在纳什均衡检查之后,我们对每个支付矩阵进行了13000轮模拟,并评估了我们考虑的6个策略的离散概率分布P。对于每个模拟,我们进行了几次分析。例如,参见图(1),我们从作者的角度考虑了一个开放的审查系统。在所有的模拟中,最终目标是计算作者效应水平asE[e]=Xi=1eipi(6)的预期值,以及类似地,评估者阈值水平的相关预期值。在进行模拟之前,我们考虑了整个历史和最后3000发子弹,大约占整个数据集的23%。我们在表(3,7,11,15)中报告了作者在过去3000轮中对整个数据集和表(5,9,13,17)的期望值,在表(4,8,12,16)和表(6,10,14,18)中报告了评审员的期望值。图(2)和图(3)显示了作者和审稿人对不同值的双盲系统和开放式审稿机制的图形比较。3讨论我们的模型无意成为同行审稿实际操作方式的现实代表。它的贡献是在一个关于激励的讨论最正式、实证研究很困难的领域,博弈论建模的一个新应用。现在我们来看看我们的结果。为了鼓励研究人员的努力,无论是公开审查还是双盲都没有显示出一致的优势。

16
可人4 在职认证  发表于 2022-4-24 10:18:41
在某些情况下,一个系统的表现明显更好(例如,在表16中,当δ>0且u=0.2时,开放式审查非常有力地激励了审查者的努力),但这些并没有表现出任何明显的规律性。此外,我们在解释结果中的微小差异时应该谨慎,这可能很容易是特定参数选择的结果,比如噪声函数η。如果我们的模型的这一特征在现实世界中得到了反映,那么它可以被解读为有利于公开审查,因为实施双盲法(假设这种实施是可能的)有着不小的成本,在激励研究效果方面没有特别的优势。请注意,这并不意味着同行评议在我们的模型中是有效的:在我们研究的每个场景下,所有论文都是同行评议的,因此我们无法在我们的模型中对同行评议科学和非同行评议科学进行任何比较。δ的值对影响水平有相当一致(负面)的影响,尽管其影响并不总是很强。特别是,当δ=0时,作者和评论者的支持水平几乎总是更高。在双盲法下,即u=0,δ值越高,效果越低,对评审员来说,这种影响尤其强烈(尽管非常非线性)。这个结果很容易解释:当revie wers的服务完全免费时,他们就会提供大量服务;当他们不这样做时,他们会节约开支。然而,由于作者的行为并不是评论者工作水平的简单反映,如果评论者不在他们的评论中加入工作,作者在论文中加入工作仍然是有利的。

17
mingdashike22 在职认证  发表于 2022-4-24 10:18:47
和/或u的高值可以通过为作者提供有利于高效率的稳健性来消除δ低值的有害后果。因此,δ和作者的效率水平之间没有任何关系。因此,如果我们设想δ被一个更复杂的参数χ取代,考虑到以下因素:(1)评价者的成本;(2)对更高的福利水平进行某种异源补偿,甚至减少χ,那么可能还有其他优势,例如通过防止种族和性别歧视来提高公平性。接近于零不会对作者的工作水平产生很大影响。令人惊讶的是,u的增加与研究人员工作效率的增加没有直接关系。特别是在某些情况下,当u很大时,这种高效率审查的强大声誉奖金可能会导致审查人员因总体高水平的审查而自满。因此,低效率论文的策略可能会产生长期效益,这会降低长期效益。换句话说,在我们的模型中,高效率论文的高声誉奖金可能会创造一种环境,而低效率论文的策略从直觉上会受益。较小的评论者声誉奖金实际上可以提高作者的平均水平。虽然这个结果可能是反直觉的,但它似乎不是我们模型中一些不切实际的假设的直接结果,因此这是我们应该考虑的一种可能性(在现有的同行评议文献中没有讨论过)。如果它反映在现实世界中,那就意味着(在公开审查中)没有更高效率审查的巨大声誉责任是有好处的,因为这样的环境让审查者“保持警觉”以监督其对低效率研究的作用。

18
可人4 在职认证  发表于 2022-4-24 10:18:54
这也意味着,公开审查鼓励高效研究的好处充其量是不可靠的。在我们的模型中,存在有利于低效率研究的强烈结构性激励,因为作者的这种策略的合理性对评议制度不敏感。这似乎反映了现实世界出版市场的一个特点:在大量的提交资料中,即使是低效率的研究人员也不可能与他们的评论者“交好运”,低效率获得预期结果的效用可以压倒低接受率。同时,良好的科学再评价是一种正外部性:评论者可能会因为发表一篇坏论文或接受一篇好论文而获得效用奖金,但这不会反映科学界的全部社会效益。我们的模型c无法告诉我们,在现实世界中,同行评议机构是否不会改变这些潜在的激励,但它们确实证明了它们不会改变的可能性。虽然同行评议制度在我们的模型中没有显著差异,但(作者声誉奖金)是一个可靠的重要参数。如果更高,那么对于其他参数的任何特定值,作者和评论者的影响水平都会上升。如图2所示。在双盲审查下,即当δ和u为零时,则从0.1到0.4 ma的变化会对认证产生很大(尽管不是压倒性的)差异,如gr aphs(a)和(c)所示。=0.1和=0.4之间的差异在δ和u值较高的特定开放审查环境下更大,如图(b)和(d)所示。详情见表3至表18。这种规律性部分归因于模型的结构特征,类似地,考虑垃圾邮件的电子邮件CAMMER。

19
能者818 在职认证  发表于 2022-4-24 10:19:01
由于发送电子邮件的成本很低,成功带来的好处也很高,因此向许多人发送普通的、低效率的欺诈电子邮件通常是有意义的,而不是向少数精心制作和定制的尝试。我们在本文前面的第2.3小节中提到了这一点。当=0.1或=0.2时,对于我们检查的δ和u的所有设置,博弈总是有多个纳什均衡。相反,当=0.3或=0.4时,当δ非零时,博弈具有单nash平衡。(它仍然有多个纳什均衡——sIX-wHe nδ为零。)非正式地说,当变得非常低时,作者和观众都会变得冷漠(他们在许多结果中是不一样的),因此对作者工作的结构性激励就比较弱。毫不奇怪会产生可靠的差异,但令人惊讶的是,这是我们在不同设置下(即除α和β等参数外)检查的唯一可靠的参数。乐观地说,我们的研究发现了一种可能导致可复制性问题的策略:发送许多低效率的论文,很有可能积累一份特别令人印象深刻的研究记录。即使这种策略很难通过从双盲改为开放审查或从开放审查改为开放审查来阻止信息的传播,也有其他可以想象的方法来阻止它。例如,考虑雇佣、任期和资金决定。如果做出这些决定的当局以奖励高效研究的方式行事,即使其结果是相对简洁的出版记录,那么这可能会产生很大的影响。这一数额将类似于在我们的模型中提高,即增加作者或t的声誉奖金。

20
能者818 在职认证  发表于 2022-4-24 10:19:07
英国ZF卓越研究框架(以前称为“研究评估活动”)的一个特点是,这是一项针对各部门是否适合接受未来研究基金的定期全国性评估。个人研究人员最多只能(共同)撰写五个研究项目。因此,自2014年上次评估以来的六年时间里,每年发表大约一篇高质量研究论文的研究人员比每年发表低质量研究项目的研究人员更有价值。简而言之,同行评议并不是阻止低质量研究的唯一途径。我们模型的主要目的之一是启发进一步的研究。需要进一步调查的一个自然因素是编辑面临的激励,我们的模型中没有包括他们。尽管编辑们认真地接受审稿人的建议,但他们接受或拒绝的决定并不完全取决于审稿人的意见。此外,编辑还可以决定是否拒绝书桌上的申请,例如是否拒绝任何未预先注册的经验性申请。一个非常长远的目标将是出版物市场及其对研究质量的影响的通用模型,但目前这还远远不可能实现。我们的模型的一个局限性是,我们将作者和评论者视为独立的群体。在现实世界中,科学家通常会在任何场合同时扮演这两个角色。使我们的模型更加复杂的一种方法就是增加这个限制。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 19:34