|
(2019),他们指出,对数变换可以减少偏度,从而提高机器学习中的预测精度,我们采用了样本数的对数,这将(右)偏度从3.2降低到0.4(即,由于对数的定义,仅在非零样本中)。由于自变量的变化率与奥运会奖牌总数的变化率不同,因此我们无法期望预测值与实际值之间的精确匹配。因此,我们需要将预测重新缩放到预定事件的数量(假设没有双青铜)。此外,为了得到自然数,四舍五入是必要的。2.1.2自变量(特征)GDP对运动成功的预测能力在奥运会医学预测中被广泛接受(比照Bernard和Busse,2004年),并且在这两个地区(比照Manuel Luizand Fadal,2011年)和体育(例如Klobucník等人,2019年)都很强大。一些合理的解释包括,富裕国家在体育方面的投资更高,提供更广泛的体育项目,以及更好地照顾人口的整体健康(De Bosscher等人,2008年)。由于有限的数据可用性和更细粒度的高分配复杂性,GDP等聚合数据已成为学术界事实上的标准(de Bosscher et al.,2006;Manuel Luiz and Fadal,2011)。为了说明奥运会作为一种竞争的性质,我们将一个国家在全球GDP中所占的份额标准化并作为特征。尽管预测奥运会成功的程度研究通常表明,总GDP“是国家奥运会表现的最佳预测指标”(Scelles等人,2020年,第698页),但我们进一步试验了一系列替代和额外的自变量,以捕捉一国的经济状况。
|