楼主: 能者818
1362 26

[量化金融] 基于深度回归的车牌拍卖价格预测 [推广有奖]

11
何人来此 在职认证  发表于 2022-5-31 02:54:24
这些输入的权重为Ul-和Ul+。神经网络通常使用图形处理单元(GPU)进行训练,GPU可以同时处理多个样本。为了有效地利用GPU,数据被分成大小相等的部分,称为小批量。每次处理小批量时都会更新权重。批量规范化使层标准化?s每个小批量的平均值和方差输出。输出分别按γland~βl进行缩放和移位。γland~βlare都是从训练中学到的。这种归一化过程已被证明可以加快收敛速度(Laurent et al.,2016)。4.2。实现细节每个示例的输入是一个字符数组(例如,[“X”、“Y”、“1”、“2”、“8”),用特殊字符填充到相同的长度。每个字符STI由查找表g转换为向量表示形式ht,称为characterembedding:g(st)=ht≡ [ht0,1,…,ht0,n]。(1) 字符嵌入的维数n是一个超参数。值ht0,1。。。,ht0,使用随机值初始化nare,并通过训练进行学习。嵌入按顺序输入神经网络,用时间步长t表示。神经网络由多个双向递归层组成,然后是一个或多个完全连接的层。批量规范化在整个过程中应用。因此,每个递归层的实现如下:~ htl=h~ htl-:~htl+i,(2)~ htl-= f(Bl(Wl-~htl公司-1+Ul-~ht公司-1升-)), (3) ~ htl+=f(Bl(Wl+~ htl-1+Ul+~ ht+1l+,(4)Bl(~ x)=γl^x+~βl,(5)其中f是直线单位,~ htl-1是前一层在同一时间步骤t,~ ht的激活向量-1L表示在前一时间步t从currentlayer激活-1,~ ht+1表示下一时间步t+1时当前层的激活。

12
大多数88 在职认证  发表于 2022-5-31 02:54:27
B是BatchNorm变换,^x是x的小批量标准化版本。W、U、γ和β是网络通过培训学习的权重。完全连接的层被实现为~ hl=f(Bl(~ Bl+Wl ~ hl-1) ),但最后一层除外,该层具有线性激活:^y=~ bl+Wl ~ hl-1、BLI是从培训中学习到的偏差向量。在输入到第一个完全连接的层之前,将最终循环层中所有时间步的输出相加。为了防止过度安装,除最后一层外,在每一层后都应用脱落(Hinton et al.,2012)。最终标量输出^y是预测价格。该模型的超参数包括字符嵌入的维数、递归层的数量、完全连接层的数量、每层中隐藏单元的数量和退出率。必须在培训前选择这些参数。5、实验5.1。数据所使用的数据是1997年1月至2010年7月香港车牌拍卖结果,从香港特别行政区政府获得(香港特别行政区运输署,2010年)。数据包含52926个拍卖条目,每个条目由^xi=xi组成- xi√σxi+, 其中'xindσxia是每个批次内x的平均值和方差。 是一个小的正常量,添加该常量可提高数值稳定性,所有层的值都设置为0.0001。虽然数据无法在线获取,但可联系香港特别行政区运输署获取。查找表CharactersBeddingsRecurrent SumValueBidirectionalRNNsFullyConnected0。05年。1.15。2分馏50 3000400 15000020000 1.1 mil。美元价格图1:样本模型设置图2:板材价格分布i。车牌上的字符,ii。销售价格(如果盘子未售出,则使用特定符号),以及iii.拍卖日期。普通车牌的底价至少为1000港元(128.2美元),特殊车牌的底价至少为5000美元(644.4美元)。

13
大多数88 在职认证  发表于 2022-5-31 02:54:31
目前的价格意味着并非所有的盘子都售出,数据中有5.1%的盘子未售出。由于这些平板没有价格,我们按照之前的研究从数据集中删除了它们,留下50698个条目供实验使用。图2描绘了数据中的价格分布。图中显示,价格高度倾斜:虽然中间售价为641美元,但平均售价为2073美元。数据中最贵的车牌是“12”,2005年2月售价为910256美元。为了弥补这种偏差,在训练和推断中使用了原木价格。最终数据以两种不同的方式分为三部分:第一种方法将数据随机划分,第二种方法将数据按顺序划分为非重叠部分。在这两种情况下,64%的数据进行了培训,16%的数据进行了验证,剩下的20%作为测试集。第一种方法代表了一种理想的情况,即不同类型的板在每组数据中都有相同的表示。为了进一步确保每组数据包含不同价格的标牌,首先根据价格将数据划分为500个箱子,并在每个箱子内进行列车验证试验。第二种方法创建了一个更现实的场景,因为它代表了实际部署中的模型将面临的问题。这也是一个非常困难的场景:因为ZF一直按字母顺序发布车牌,所以以字母开头的车牌将无法在顺序分割数据中获得。例如,以“M”开头的车牌在2005年之前不可用,而以“P”开头的车牌直到2010年才可用。因此,对于一个按顺序分割数据训练的模型来说,很难从后面的字母开始学习板块的值。5.2。

14
能者818 在职认证  发表于 2022-5-31 02:54:34
TrainingI进行了一次网格搜索,以研究超参数不同组合的特性,改变字符嵌入的维度(12到256)、重复层的数量(1到9)、完全连接层的数量(1到3)、每层中隐藏单元的数量(64到2048)和退出率(0到1)。共调查了1080组超参数。网格搜索分三次进行:第一次,在每组超参数下对网络进行40个时代的训练,重复4次。在第二次通过时,根据中位数验证均方根误差(RMSE),对第一次通过的10组最佳超参数中的每一组重复训练10次,RMSE是一种常用于连续目标(如价格)的拟合优度度量- yi),(6)其中yi是车牌i的实际价格。在最后一关中,再次基于中值验证RMSE,在第二关的最佳高参数集下重复训练30次。第二次和第三次传球的训练持续时间为120个时代。在每次培训课程中,均方误差下对网络进行了不同初始化的培训。整个过程中使用了学习率为0.001的Adam优化器(Kingma&Ba,2014)。培训完成后,重新加载基于验证错误的beststate进行推理。培训由四名NVIDIA GTX 1080进行。

15
mingdashike22 在职认证  发表于 2022-5-31 02:54:38
为了充分利用GPU,使用了2048的小批量。在第一个过程中,单个GPU上的MediaTraining时间范围从嵌入维度为12的2层64隐藏单元网络的8秒,到嵌入维度为24的8层1024隐藏单元网络的1分57秒,再到嵌入维度为256的12层2048隐藏单元网络的7分50秒。最后,我还训练了先前研究中模型的再现,以及一系列全连接网络和角色n-gram模型,以进行比较。假设一个图版的最大长度为六个字符,对于n-gram模型,I集中于n≤ 4,并且在每种情况下,根据训练数据中k个最近邻居的中值和平均值计算预测价格,其中k=1、3、5、10、20。表1:模型性能配置列车RMSE有效RMSE试验RMSE列车RValid RTest RRandom SplitRNN 512-128-5-2-。05年。4391页。5505年。5561页。8845。8223页。8171Woo等人(2008年)。7127页。7109年。7110。6984。7000。6983Ng等人(2010年)。7284页。7294页。7277页。6850。6842。6840MLP 512-128-7-。05年。6240。6083。7467。78235。72785。6457 Unigram kNN-10。8945 1.004。9997。5221页。4086。4088(1-4)-克kNN-10。9034 1.012 1.013。5125。3996页。3931顺序拆分RNN 512-48-5-2-。1.5018年。5111。6928。8592。8089。6951Woo等人(2008年)。7123页。6438。8147。7163。6967。5783Ng等人(2010年)。7339页。6593。8128页。6988。6819页。5802MLP 512-48-7-。1.6326页。6074。7475。7762。7300。6450 Unigram kNN-10。8543 1.046 1.094。5239。3979页。3846(1-4)-克kNN-10。8936 1.086 1.144。4791页。3503。3269 RNN的配置以[隐藏单元]-[嵌入维度][重复层]-[完全连接层]-[退出率]的格式报告。MLP的配置以相同的格式报告,但没有重复层。RNN、MLP和Ensemblemodels的数字是30次运行的中间值。5.3。

16
kedemingshi 在职认证  发表于 2022-5-31 02:54:41
模型性能表1根据中值验证RMSE报告了第5.2节规定的所有参数集中最佳参数集的汇总统计数据。由于分离模型针对随机分割数据和顺序分割数据进行了训练,因此报告了两组统计数据。对于每组统计数据,Random Split和Sequential Split-I报告了最佳RNN模型的性能,然后是各种其他模型的性能,以进行比较。包括培训数据、验证数据和测试数据的性能图,以突出样本外的性能。我报告了两种绩效衡量指标,RMSE和R平方,因为后者更常用于经济和金融领域。R平方测量模型能够解释的目标变化分数,并定义为:R=1-Pi(彝语- ^yi)Pi(yi- y)(7),其中y是所有牌照的平均价格。当数据被随机分割时,最好的模型能够解释80%以上的价格变化。作为比较,Woo等人(2008年)也对小批量64和512进行了实验。通过保持训练时间不变,较小的批大小会导致性能较差,这是由于减少了历次。和Ng等人(2010),分别代表了(Wooet al.,2008)和(Ng et al.,2010)中回归模型的再现,最多只能解释70%的变化。具有递归层的重要性可以从具有与最佳RNN模型相同的嵌入维数、层数和神经元数的全连接网络(MLP)的较差性能中看出。这个模型只能解释不到66%的价格变化。出于空间的考虑,我只包括两个基于邻居中间价格的性能最好的n-gram模型。

17
可人4 在职认证  发表于 2022-5-31 02:54:44
这两个模型都明显低于toRNN回归和享乐回归,只能解释40%的价格变化。对于unigram,当k=10时,验证性能最佳。对于n>2,具有无限特征的模型的性能非常差,因为它们生成了大量很少出现在数据中的特征。根据发生次数限制功能的数量,并允许单个模型中的n范围可以提高性能,但永远不会超过simpleunigram的性能。使用中间价格和使用平均价格的表现非常相似,在所有情况下差异均小于0.05。当数据按顺序分割时,所有模型的性能都受到了显著的影响,RNN保持了其性能领先于其他模型的优势。正如前面所解释的那样,由于ZF发布的车牌按字母顺序排列,因此以较晚字母开头的车牌将无法用于培训和验证。对测试集的影响尤其严重,因为它是从距离列车集最远的时间段提取的。这种情况下的最佳RNN模型与随机拆分情况下的层数和每层数相同,但字符嵌入的最佳大小明显较小。这又一次是由于以较晚字母开始的字母表无法用于训练和验证,因此,当数据按顺序拆分时,这两组数据的变化比随机拆分时小。图3绘制了最佳模型的代表性运行的预测价格和实际价格之间的关系,分组在1000港元(128.2美元)的BIN中。该模型在广泛的价格范围内表现良好,垃圾箱沿45度线紧密聚集。

18
能者818 在职认证  发表于 2022-5-31 02:54:47
然而,它始终低估了最昂贵的车牌的价格,这表明这些车牌的买家赋予了它们超凡的价值,而这是该车型无法捕捉到的。为了使比较更有意义,这些再现仅包含基于板上角色的特征。50 400 3000 20000 150000 110万。实际价格50 400 3000 20000 150000 110万。预测PriceWoo et al(2008)Ng et al(2010)0。2.4.6.8分数。55。6.65。7.75。8.85测试RMSERandom分割图3:实际价格与预测价格图4:性能波动5.4。模型稳定性与特征回归不同,特征回归在每次运行中给出相同的预测并实现相同的性能,神经网络由于收敛到局部极大值而容易受到波动的影响。图4绘制了最佳模型30次训练运行的测试RMSE的核密度估计。直方图表示最佳模型的实际测试RMSE分布,而红线是分布的核密度估计。误差紧密聚集,随机分割样本的标准偏差为0.025,顺序分割样本的标准偏差为0.036。这表明,绩效波动不太可能在实践中引起关注。5.5。随着时间的推移,再培训一段时间后,一种模式可能会过时,例如,如果气候或经济环境发生变化。在本节中,我研究了使用顺序分割数据定期重新训练模型的效果。具体而言,每年、每月或从不在整个测试数据中进行再培训。使用了最好的纯RNN模型,每次再培训的样本量保持在25990,这大约是五年的数据。这个过程像以前一样重复了30次。图5绘制了每月评估的RMSE和R中值。

19
能者818 在职认证  发表于 2022-5-31 02:54:50
对于没有再训练预测的RNNmodel,两种方法的精度都会迅速下降。RMSE每月平均增长0.017,而RDR每月下降0.01。年度再培训明显更好,RMSE降低了8.6%,R提高了6.9%。然而,月度再培训的额外收益要小得多。与每年的再培训相比,只有3.3%。2.4.6.6个月后。2.4.6.8 NN R平方12 36 48 60个月每年一次无再培训图5:再培训频率降低对RMSE的影响,解释力提高2.6%。这些差异具有统计学意义。6、通过构建类似平台的搜索引擎来解释预测。和回归和n-gram等模型相比,考虑到涉及的大量参数及其相互作用的复杂性,很难理解RNN模型预测背后的基本原理。如果要在现场部署RNNmodel,它需要能够解释其预测,以说服人类用户在实践中采用它。一种方法是通过将最后一个递归层随时间的输出相加,为每个板提取一个特征向量。此特征向量与最后一层中的神经元数量大小相同,并表示模型对所关注的许可证的“想法”。所有车牌的特征向量都可以输入标准的K近邻模型,从而有效地创建类似车牌的搜索引擎。该搜索引擎提供的类似图版可被视为模型预测的“基本原理”。为了演示此过程,我使用表1中的最佳RNN模型为所有训练样本生成特征向量。这些示例用于建立k-NNmodel。

20
mingdashike22 在职认证  发表于 2022-5-31 02:54:53
当用户提交查询时,将使用RNNmodel进行价格预测,而k-NN模型提供了许多示例作为基本原理。表2用三个例子说明了该程序的结果。该模型被要求预测三种钢板的价格,范围从低到高Wilcoxon符号秩检验:RNN年度再培训=RNN无再培训:z=-3.198,p=0.001RNN月度再培训=RNN年度再培训:z=-3.571,p=0.000表2:通过自动选择历史示例解释预测表价格板价格板价格查询和预测价格LZ3360 1000 MM293 5000 13 2182000 k-NN HC3360 1000 MM293 5000 178 195000BG3360 3000 MM203 5000 138 1100000HV3360 3000 MM923 9000 12 710000value提供的历史示例。预测价格列在预测部分,而历史示例部分为每个查询列出了k-NNmodel返回的前三个条目。请注意,该过程是如何将重点放在低值牌的数字部分和中值牌的字母部分上的,分别反映了具有相同数字和相同字母的值。该程序还可以通知用户之前已经售出了一个车牌。最后,为高价值板块提供的示例说明了为什么很难对此类板块进行准确预测,因为类似板块的历史价格也是高度可变的。7、结论性意见本研究表明,深度递归神经网络可以很好地估计车牌价格,其准确度显著高于其他模型。deep RNN能够从车牌上的原始字符中学习价格,而其他型号则必须依赖手工制作的功能。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 13:36