楼主: 能者818
1073 21

[经济学] 大流行期间奥运奖牌分布的预测 [推广有奖]

11
能者818 在职认证  发表于 2022-4-26 12:37:11
(2019),他们指出,对数变换可以减少偏度,从而提高机器学习中的预测精度,我们采用了样本数的对数,这将(右)偏度从3.2降低到0.4(即,由于对数的定义,仅在非零样本中)。由于自变量的变化率与奥运会奖牌总数的变化率不同,因此我们无法期望预测值与实际值之间的精确匹配。因此,我们需要将预测重新缩放到预定事件的数量(假设没有双青铜)。此外,为了得到自然数,四舍五入是必要的。2.1.2自变量(特征)GDP对运动成功的预测能力在奥运会医学预测中被广泛接受(比照Bernard和Busse,2004年),并且在这两个地区(比照Manuel Luizand Fadal,2011年)和体育(例如Klobucník等人,2019年)都很强大。一些合理的解释包括,富裕国家在体育方面的投资更高,提供更广泛的体育项目,以及更好地照顾人口的整体健康(De Bosscher等人,2008年)。由于有限的数据可用性和更细粒度的高分配复杂性,GDP等聚合数据已成为学术界事实上的标准(de Bosscher et al.,2006;Manuel Luiz and Fadal,2011)。为了说明奥运会作为一种竞争的性质,我们将一个国家在全球GDP中所占的份额标准化并作为特征。尽管预测奥运会成功的程度研究通常表明,总GDP“是国家奥运会表现的最佳预测指标”(Scelles等人,2020年,第698页),但我们进一步试验了一系列替代和额外的自变量,以捕捉一国的经济状况。

12
能者818 在职认证  发表于 2022-4-26 12:37:18
例如,为了代表某个国家的不平等和贫困程度,我们还在我们的模型中添加了基于人类发展指数(HDI)的信息,即预期寿命、教育和人均收入指标的统计综合指数,通常用于将国家分为四个人类发展等级。然而,我们没有发现预测准确性有任何提高。第一作者可根据要求提供这些附加结果。除了GDP之外,一个国家的人口也是一个公认的奥运会气象指标(Bernard and Busse,2004;De Bosscher et al.,2008);也就是说,大国拥有更大的潜在奖牌获得者资源(Bernard和Busse,2004)。然而,由于一个国家的世界级运动员的数量在某一点上已经耗尽,仅凭人口并不能再带来更多的奖牌,我们采用人口的对数,其增长速度比线性函数慢。表1。模型中使用的数值变量的描述性统计,包括数据源。可变类型迷你木乃伊。偏差偏差数据源medalsNumerical4的编号。63913.1905.024Griffin(2018)在全球GDP中的份额<0.0010.2000.0050.0177.773国际货币基金组织,2019年、2020年;世界银行,2020年人口(E+8)数字2。28714.1578.3982.275-0.512联合国经济和社会事务部(2019)缩写和注释。我们展示了1991年至2016年的所有数值,因为2020年的奖牌还不清楚。我们还反映了模型中参赛运动员的数量。Scelles等人(2020年)建议对运动员数量使用分类变量。这里的基本原理是,在进行预测时,通常不知道竞争对手的最终数量。此外,他们提出的分类在过去很少改变。

13
能者818 在职认证  发表于 2022-4-26 12:37:24
例如,自1992年以来,阿富汗一直派出0至9名运动员。在组成这些小组之前,我们将参加多个学科的运动员作为他们赢得医疗多次的机会数倍。虽然现有研究证实了特定社会经济变量对奥运会奖牌数量、公共卫生危机与体育运动之间的关系的影响,例如,在世界第二大人口国家印度,1992年至2016年间人口的显著增长(复合年增长率:1.58%)很难转化为奥运奖牌;虽然印度在1992年获得了零枚奖牌,但直到2016年(两枚奖牌)奖牌数量才大幅增加。相比之下,人口相近的中国在2016年赢得了70枚奖牌。关于印度奥运会表现的深入分析,请参考Krishna and Haglund(2008)。在COVID-19危机之前,不应假定表现。然而,这场大流行不仅导致奥运会推迟到2021(国际奥委会,2020),而且影响了运动员的准备(莫尔等人,2020;Mun-Li Pez等人,2020;Wong Eth.,2020),以及在体育产业中可用的资金(哈默施密特等人,2021;霍基,2021;帕内尔等人,2021)。我们反映了COVID-19对来自下呼吸道疾病和GDP的死亡事件的影响。我们将最先提到的两个特征按五分位数进行分类,以限制潜在异常值的影响。广泛使用的数据允许通过消除COVID-19事件和死亡,并利用在大流行开始之前的GDP预测来创建合成的“无COVID-19”方案;因此,我们可以2019冠状病毒疾病量化奥运奖牌的影响。已经有球了(1972年,第。

14
何人来此 在职认证  发表于 2022-4-26 12:37:30
191),在他的开创性贡献中提到,“主办(奥运会)更成功,至少部分是因为他们有能力以相对较低的财政支出进入比平常更大的队伍”。参与者决策过程中的社会压力也可以解释这种“东道主效应”(Garicano等人,2005年;Dohmen and Sauermann,2016年;Bryson等人,2021年)。因此,我们为过去、现在和未来的东道国纳入了一个分类变量。Bernard和Busse(2004)发现,由于体育在共产主义政权中的重要作用,苏联国家在常规基础上的表现超出了预期。从早期开始,将竞技体育和教育结合起来是他们战略的一个重要组成部分(Mets"a-Tokila,2002年)。为了反映政治制度中的这种特殊性,我们在资本主义市场经济体(后共产主义经济体)和加入欧盟的中欧国家中使用了三分法,正如Scelles等人(2020年)所完善的那样。此外,由于文化、传统和气候的原因,地理特征决定了在特定的体育项目中取得成功的能力(Hoffmann et al.,2002)。随后,我们使用联合国经济和社会事务部(2020年)定义的21个地区作为分类自变量。最后,根据Scelles等人(2020年)和Celik and Gius(2014年)的建议,将前一届奥运会的奖牌数量(非对数)添加到模型中,因为它显著提高了预测能力。这表明,存在一些未经考虑的特定于国家的因素,其中可能“包括一个国家的体育传统、民众的健康以及允许更多参与某些体育赛事的地理或天气条件”(塞利克和朱斯,2014年,第页)。

15
可人4 在职认证  发表于 2022-4-26 12:37:36
40).我们在表1中展示了模型中使用的数字变量的描述性统计,并在表2中列出了顺序变量和分类变量。根据经验,Stekler等人(2010年)发现,最近的数据在体育预测中产生了更好的结果。因此,我们利用奥运会前一年的数据进行预测。因此,通过检索1991年至2020年间206个国家的数据点,我们可以为我们的模型提供1379个国家年的观测数据。表2。模型中使用的序数和分类变量列表,包括数据源。易变类型编号(一)数据源2018年雅典奥运会索迪纳尔格里芬的编号;Scelles等人。,20200-9田径运动员10-49田径运动员50-149田径运动员149名运动员死亡(因下呼吸道疾病导致的死亡)顺序(五分位数)全球疾病负担协作网络(2018)疾病事件(受下呼吸道疾病影响的人)顺序(五分位数)全球疾病负担协作网络(2018)因新冠肺炎导致的死亡(新增疾病死亡)研究所健康指标与评估,2020年;世界卫生组织,2020COVID-19偶然事件(添加到疾病事件中)卫生计量与评估研究所,2020年;世界卫生组织,2020年主办国分类维基百科(2020年),基于国际奥委会上一次主办国的主办国下一次主办国的政治区域分类。

16
kedemingshi 在职认证  发表于 2022-4-26 12:37:42
(2020)CAPME(资本主义市场经济体)1161(后共产主义经济体)中欧经济共同体,加入欧盟(中东欧国家)可变类型数(个)数据源地区分类欧元区国家,经济和社会事务部(2020年)撒哈拉以南非洲拉丁美洲和加勒比海西亚欧洲南部东亚欧洲东部欧洲欧洲南部亚洲东部非洲北部波利尼西亚中亚中部亚细亚美洲澳大利亚和新西兰西非2。2数据预处理数据预处理是确保准确预测的关键步骤(Wang et al.,2018;Chen et al.,2019)。在这里,我们执行三个步骤:第一,绘制国家地图;第二,内部/外推;第三,基准测试。2.2.1国家地图根据国际奥委会的定义,奥运代表队不一定与其他数据源中的国家列表相匹配,我们需要(dis-)汇总社会经济数据,以充分代表奥运代表队,例如,将英国的一部分阿吉拉人口与数据源中的英国人口相加。2016年,根据国籍,我们将获得两枚奖牌的九名国际奥林匹克运动员(IOA)归为科威特。联合队(EUN)代表俄罗斯因服用兴奋剂而被禁止参加奥运会(赫尔曼,2019年)。“中立”团队可能再次参与2021;在这种情况下,我们的预测适用于来自俄罗斯的运动员,无论他们的队名如何。将前捷克斯洛伐克的运动员(269人)和奖牌(7人)按人口分为捷克共和国(178/5)和斯洛伐克(91/2);这使得从捷克斯洛伐克崛起的这两个国家有了足够的预测。难民奥运队(2016年12名运动员)尚未获得奖牌。

17
何人来此 在职认证  发表于 2022-4-26 12:37:49
因此,我们假设一个恒定的预测意味着在2021也不会有奖牌。2.2.2内部/外推法我们通过内部/外推法获得特定年份的缺失数据点,这是预处理数据时常用的方法(例如Christodoulos等人,2010年;Chen等人,2019年)。如果两个数据点之间缺少特定年份,我们会进行线性插值,我们会根据数据集中的第一个(分别是最后一个)值假设常数进行外推;这样我们就不会误判当地事件(斯科特·阿姆斯特朗和科洛比,1993)。例外情况是GDPand种群通常会抑制持续增长;线性外推在这里是合理的。对于缺失不超过五个连续点且可用数据点多于缺失数据点的国家,我们使用约束最小二乘法进行线性外推,以考虑隐含趋势:当n<6个缺失值时,我们使用n+1近可用值来估计直线的斜率。截距由最近的可用值给出。2.2.3基准如果一个国家根本没有可用的数据点,我们将相应区域(联合国经济和社会事务部,2020年)的平均值作为基准。这里的理由是,一个区域内的国家也有共同的社会经济特征,比如经济实力。然而,这种方法只适用于一些较小国家的一些变量,这些国家占奥运会奖牌总数的1%。2.3概念发展托比特模型标志着奥林匹克奖牌预测的一个里程碑,因为有大量国家获得了零奖牌(Bernard和Busse,2004)。这一概念可以追溯到toTobin(1958年),他认为,对于删失变量,线性回归模型无法给出合理的结果。

18
大多数88 在职认证  发表于 2022-4-26 12:37:56
为了将这个统计概念应用到机器学习中,我们开发了一个两阶段的算法:第一步,我们训练一个二元分类器来确定一个国家是否应该赢得任何奖牌。作为第二步,我们训练一个回归模型来预测预测奖牌成功国家的奖牌数量。在这两个步骤中,我们都采用了随机森林算法(参见Lee,2021),这是一种集成学习器,在体育预测的各个学科中都被证明是有利的(参见Lessmann等人,2010年;Groll等人,2019年)。Breiman(2001年,第5页)解释说,“随机[F]森林是一种树预测器的组合,使得每棵[决策]树都依赖于独立采样的arandom向量值,并且对森林中的所有树木具有相同的分布”,并报告“分类准确度的显著提高”。我们模型第一步中使用的分类器和第二步中使用的回归之间的区别在于,分类器的树预测器报告类别标签(“零奖牌”或“奖牌成功”)与描述奖牌数量的数值相反(Breiman,2001;Cutler等人,2012;Lee,2021)。虽然分类器使用单个决策树的多数投票,但回归模型对树确定的值进行平均。Oshiro等人(2012年)在设定一组树的数量时发现,较大的树不一定能提高性能。因此,我们在第一步中使用十棵树。为了为最终估计提供有意义的置信区间(基于十棵树的集合),我们在第二步中使用了一千棵树。卡特勒等人。

19
何人来此 在职认证  发表于 2022-4-26 12:38:02
(2012)从计算(其中包括由于训练和预测时间、少量参数和直接用于高维问题)和统计学(其中包括由于测量变量重要性、差异类权重和异常值检测)的角度解释了随机森林的吸引力。(个体)决策树的主要缺点是它们容易过度拟合(Kirasich等人,2018)。尽管随机森林“通过使用决策树的组合或“集成”部分解释了这个问题,其中树中的值是随机的、独立的样本”(Kirasich et al.,2018,第7页),但对预测过程的认真设置至关重要。2.4预测过程出于这个原因,我们采用严格的时间一致性数据分离,以避免过度拟合的情况,并获得公正和稳健的结果(Dwork等人,2015年;Roelofs等人,2019年)。交叉验证在训练和测试数据中分割数据集;虽然训练数据决定了模型,但测试数据确保了固定数据样本之外的有效性(Kerbaa等人,2019年;Li等人,2020年)。如本文所述,在时间序列的情况下,必须考虑数据中的时间演化和依赖性;因此,Bergmeir和Benítez(2012)建议进行最后一次区块交叉验证,这是使用最新数据点作为测试数据进行交叉验证的特例。更具体地说,我们使用1991年至2004年收集的数据作为训练集,使用2008年奥运会的数据作为测试集,来评估和比较不同模型的性能。只有这样,我们才能在验证集上评估最终模型,其中包括2012年和2016年奥运会的数据。

20
mingdashike22 在职认证  发表于 2022-4-26 12:38:10
我们在图1中说明了整个预测过程。为了展示之前引入的两阶段随机森林模型的性能,我们根据2008年奥运会上获得正确预测奖牌的国家所占的份额(不同模型的训练)将该模型与其他模型进行对比。对于模型的第一步,作为分类器,我们还考虑了一个支持向量机和一棵、一百棵和一千棵树的随机森林。对于第二步,即回归,我们对一系列经典回归、boosting方法和神经网络进行基准测试:作为经典回归,我们考虑线性回归、考虑特征非线性变换的支持向量机(Chang和Lin,2011)和决策树回归(Breiman et al.,1984)。Boosting方法(Bühlmann and Hothorn,2007)执行决策树的几个阶段(在本例中)。每个树将输出变量与上一步的预测值进行比较,并根据错误调整下一步的设置。我们将直接考虑误差的DeadaBost(Freund and Schapire,1997)和首先转换误差的XGBoost(Chen and Guestrin,2016)作为基准。神经网络(LeCun等人,2015年)由生物大脑的结构驱动。他们使用一个计算网络,其中每个节点执行一个简单的转换,并将结果交给后续节点。在这两个步骤中,作为分类器(10棵树)和回归模型(1000棵树),随机林的性能都优于所描述的算法。为了进一步验证这一性能,我们使用两阶段随机森林预测2012年和2016年奥运会(模型验证)。这尤其有趣,因为它允许我们将我们的模型与学术文献中提出的过去的奖牌预测进行比较。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-9 12:38