楼主: mingdashike22
879 44

[量化金融] 神经网络条件密度估计:最佳实践和 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

79%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
71.2422
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
25194 点
帖子
4201
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Conditional Density Estimation with Neural Networks: Best Practices and
  Benchmarks》
---
作者:
Jonas Rothfuss, Fabio Ferreira, Simon Walther, Maxim Ulrich
---
最新提交年份:
2019
---
英文摘要:
  Given a set of empirical observations, conditional density estimation aims to capture the statistical relationship between a conditional variable $\\mathbf{x}$ and a dependent variable $\\mathbf{y}$ by modeling their conditional probability $p(\\mathbf{y}|\\mathbf{x})$. The paper develops best practices for conditional density estimation for finance applications with neural networks, grounded on mathematical insights and empirical evaluations. In particular, we introduce a noise regularization and data normalization scheme, alleviating problems with over-fitting, initialization and hyper-parameter sensitivity of such estimators. We compare our proposed methodology with popular semi- and non-parametric density estimators, underpin its effectiveness in various benchmarks on simulated and Euro Stoxx 50 data and show its superior performance. Our methodology allows to obtain high-quality estimators for statistical expectations of higher moments, quantiles and non-linear return transformations, with very little assumptions about the return dynamic.
---
中文摘要:
给定一组经验观测值,条件密度估计旨在通过建模条件概率$p(\\mathbf{y}| \\mathbf{x})$)来获取条件变量$\\mathbf{y}$和因变量$\\mathbf{y}$之间的统计关系。本文基于数学见解和经验评估,为神经网络在金融应用中的条件密度估计开发了最佳实践。特别是,我们引入了一种噪声正则化和数据归一化方案,缓解了此类估计器的过度拟合、初始化和超参数敏感性问题。我们将我们提出的方法与流行的半参数和非参数密度估值器进行了比较,在模拟和欧洲斯托克50指数数据的各种基准测试中证明了其有效性,并显示了其优越的性能。我们的方法可以获得高阶矩、分位数和非线性回报变换的统计期望的高质量估计量,而回报动态的假设很少。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:最佳实践 神经网络 神经网 Applications Quantitative

沙发
何人来此 在职认证  发表于 2022-6-14 06:02:38 |只看作者 |坛友微信交流群
神经网络条件密度估计:最佳实践和基准Jonas Rothfuss*+. 法比奥·费雷拉*+Simon Walther+Maxim Ulrich+Abstract给出了一组经验观察结果,条件密度估计旨在通过对条件概率p(y | x)建模来获取条件变量x和因变量y之间的统计关系。本文基于数学见解和经验评估,为神经网络的金融应用开发了条件密度估计的最佳实践。特别是,我们引入了噪声正则化和数据归一化方案,缓解了此类估计器的过拟合、初始化和超参数敏感性问题。我们将我们提出的方法与流行的半参数和非参数密度估计器进行了比较,在模拟和欧洲斯托克50指数数据的各种基准测试中证明了其有效性,并展示了其优越的性能。我们的方法可以获得高阶矩、分位数和非线性回报变换的统计期望的高质量估计量,而回报动态的估计量很少。*表示同等贡献+作者是德国卡尔斯鲁厄技术研究所(KIT)计算风险和资产管理研究小组的成员。参考jonas。rothfuss@gmail.comI.引言计量经济学和金融学中的一系列问题都与描述解释变量x向量和因变量或感兴趣向量yof之间的统计关系有关。虽然回归分析旨在描述条件平均值E[y | x],但风险和资产管理中的许多问题需要深入了解与平均值的偏差及其相关的可能性。通过对条件概率密度p(y | x)的建模,可以完全描述y对x的随机依赖性。

使用道具

藤椅
可人4 在职认证  发表于 2022-6-14 06:02:41 |只看作者 |坛友微信交流群
从一组经验观测{(xn,yn)}Nn=1推断这样的密度函数通常称为条件密度估计(CDE)。我们建议使用神经网络来估计条件密度。特别地,我们讨论了神经网络控制高斯混合参数的两个模型。即Bishop(1994)的混合密度网络(MDN)和Ambrogioni等人(2017)的核混合网络(KMN)。当选择的表达能力足够强时,这样的模型可以近似于二进制条件密度。然而,当与最大似然估计相结合时,这种灵活性可能会导致训练数据之外的过度拟合和较差的泛化。针对这个问题,我们开发了一种用于条件密度估计的噪声正则化方法。通过在训练过程中对数据加入小的随机扰动,条件密度估计变得平滑,并具有更好的泛化能力。事实上,我们从数学上推导出,在训练期间添加噪声等于惩罚条件对数概率的二阶导数。从图形上看,惩罚惩罚了非常弯曲甚至尖峰的密度估值器,以支持更平滑的变量。我们的实验结果证明了噪声正则化对于获得良好的样本外性能的有效性和重要性。此外,我们还关注因培训数据的不同值范围而产生的进一步实际问题。在这种情况下,我们引入了一种简单的数据规范化方案,该方案在规范化数据上建立条件密度模型,并在训练后转换密度估计,从而与原始数据分布相对应。归一化方案使得基于神经网络的密度估计器的超参数和初始化对不同的值范围不敏感。

使用道具

板凳
能者818 在职认证  发表于 2022-6-14 06:02:45 |只看作者 |坛友微信交流群
我们的实证评估表明,这提高了培训结果的一致性,并显著提高了估计员的绩效。为了将我们提出的方法与成熟的CDE方法进行比较,我们报告了一项关于模拟密度和EuroStoxx 50收益率的综合基准研究。当使用噪声正则化时,MDN和KMN都能够优于以前的标准半参数和非参数条件密度估计。此外,研究结果表明,即使在小样本情况下,基于神经网络的条件密度估计器也可以与已建立的条件核密度估计器同等或优于后者。我们的研究补充了计量经济学文献,其中讨论了两种主要的SCDE方法。大多数金融研究假设条件分布遵循标准参数族(如高斯),该族通过(部分)线性模型捕获分布参数对x的依赖性。广泛使用的ARMA-GARCH时间序列模型(Engle,1982;Nelson和Cao,1992)及其许多扩展(Glosten等人,1993;Hansen等人,1994;Sentana,1995)属于这一类。然而,许多此类模型中的固有假设后来在经验上遭到了反驳(Harvey和Siddique,1999;Jondeau和Rockinger,2003)。这类模型的另一个例子是线性因子模型(Fama和French,1993;Carhart,1997;Famaand French,2015)。在这里,Jagannathan和Wang(1996)、Lewellen和Nagel(2006)或Gormsen和Jensen(2017)记录的这些因素模型的Beta时间变化的证据也对所述线性关系的实际存在提出了质疑。

使用道具

报纸
可人4 在职认证  发表于 2022-6-14 06:02:48 |只看作者 |坛友微信交流群
总的来说,建模限制在多大程度上与生成经验数据的实际机制相一致,以及它们在多大程度上偏向于推理,这是不明确的。另一项主要研究从非参数角度探讨CDE,以数据点为中心,用核函数估计条件密度(Hyndman等人,1996;Li和Racine,2007)。虽然核方法很少对函数关系和密度形状进行假设,但它们通常会受到尾部区域泛化能力差和维数较高时数据解析性差的影响。相比之下,基于高容量函数逼近器(如神经网络)的CDE在计量经济学和金融界很少受到关注。然而,他们将参数模型的全局代数化能力与关于条件密度的限制性假设结合起来。为了结合这两个优点,本文研究了神经网络在条件密度估计中的应用。总体而言,本文为构建高容量条件密度模型建立了良好的框架。由于提出了噪声正则化和数据归一化方案,我们能够克服基于神经网络的目标器的常见问题,并使该方法易于使用。条件密度估计器可以通过开源python包获得。二、背景A。密度估计集X是一个随机变量,其概率密度函数(PDF)p(X)在域X上定义。在研究现实世界中的现象时,可观察变量X的分布通常是未知的。然而,可以观察到实现xn~ x中的p(x)。给定此类观测值的集合D={x,…,xn},我们的目标是找到真实密度函数p的良好估计值^p(x)。

使用道具

地板
大多数88 在职认证  发表于 2022-6-14 06:02:51 |只看作者 |坛友微信交流群
通常,拟合分布的优度^p由估计的^p和真实密度函数p之间的统计差异来衡量。在密度估计文献中(Bishop,2006;Li和Racine,2007;Shalizi,2011),最常见的标准是综合均方误差(IMSE)和Kullback-Leibler差异。在最一般的形式中,密度估计的目的是在域X上所有可能的PDF中找到最佳的^p,同时只给出有限数量的观测值。即使在简单的情况下X=R,这也需要使用有限的am来估计许多分布参数ounthttps://github.com/freelunchtheorem/Conditional数据密度估计,这在实践中是不可行的。因此,有必要限制可能的PDF的空间,或者在密度估计中嵌入其他假设。这类假设描述了参数和非参数密度估计子领域之间的区别。A、 1。参数密度估计在参数估计中,假设PDF^p属于参数族F={^pθ(·)|θ∈其中密度函数由有限维参数θ描述∈ Θ. F的一个经典例子是一元正态分布族{N(·|u,σ)|(u,σ)∈ R×R+}。估计θ的标准方法是最大似然估计,其中θ*数据D的可能性最大化:θ*= arg maxθNYn=1^pθ(xn)=arg maxθNXn=1log^pθ(xn)(1)在实践中,优化问题被重新表述为最大化对数概率之和,这相当于最小化经验数据分布pD(x)=NPNn=1δ(| | x)之间的Kullback-Leibler散度- xn | |)(即。

使用道具

7
何人来此 在职认证  发表于 2022-6-14 06:02:54 |只看作者 |坛友微信交流群
观测值中的点质量xn)和参数分布^pθ:θ*= arg minθDKL(pD | | pθ)(2)有关参数密度估计的更多详细信息,请参阅Bishop(2006)第57页。A、 2。非参数密度估计与参数方法相比,非参数密度估计没有明确限制所考虑PDF的空间。最流行的非参数方法是核密度估计(KDE),在每个训练数据点xn中放置对称密度函数K(z),即所谓的核(Rosenblatt,1956;Parzen,1962)。得到的单变量分布密度估计是以数据点为中心的N个密度的等权混合。在多元核密度估计的情况下,即dim(X)=l>1,密度可以估计为边际核密度估计的乘积。这样的核密度估计如下:^p(x)=lYj=1^p(x(j))=lYj=1Nh(j)NXn=1Kx(j)- x(j)nh(j)!(3) 其中,x(j)表示列向量x的第j个元素∈ 十、 Rland h(j)对应于第j维的带宽/somoothing参数。K(·)的一个常用选择是高斯核:K(z)=(2π)-e-K(·)的其他常见选择是Epanechnikov核和指数核。如果提供连续的核函数,则(3)中估计的PDF是连续的。除了适当选择K(·)之外,一个中心挑战是带宽参数h的选择,该参数控制估计PDF的平滑。有关带宽选择的详细信息,我们请感兴趣的读者参阅Li和Racine(2007)。B、 条件密度估计(CDE)设(X,Y)为一对具有各自域X的随机变量 Rland Y Rmandrealizations x和y。设p(y | x)=p(x,y)/p(x)表示ygiven x的条件概率密度。通常,y被称为因变量(即。

使用道具

8
mingdashike22 在职认证  发表于 2022-6-14 06:02:57 |只看作者 |坛友微信交流群
解释变量)和X条件(解释)变量。给定一个观测数据集,D={(xn,yn)}Nn=1从联合分布(xn,yn)中提取~ p(x,y),条件密度估计(CDE)的目的是充分估计真实条件密度p(y | x)的p(y | x)。在条件密度估计中,Kullback-Leibler散度目标表示为p(x):Ex上的期望~p(x)[DKL(p(y | x)| p(y | x))]=E(x,y)~p(x,y)[对数p(y | x)- log^p(y | x)](4)类似于(1)-(2)中的无条件情况,从(4)中得出的参数极大似然估计可以表示为θ*= arg maxθNXn=1log^pθ(yn | xn)(5)给定从p(x,y)中提取的i.i.D数据集D,(5)可被视为等效于最小化(4)中预期的montecarlo估计。第二节讨论的非参数KDE方法。A、 2可以扩展到有条件的情况。通常,无条件KDE用于估计节理密度^p(x,y)和边缘密度^p(x)。然后,条件密度估计如下:密度比^p(y | x)=^p(x,y)^p(x)(6),其中枚举数和分母都是核函数的和,如(3)所示。有关CDE的更多详细信息,我们请感兴趣的读者参阅Li和Racine(2007)。三、 相关工作本章讨论金融、计量经济学和机器学习领域的相关工作。在这方面,我们使用参数方法和非参数方法之间的区别,如第二节所述。特别是,我们将以下审查分为三类:1)参数条件密度和时间序列模型,具有狭义定义的参数族2)非参数密度估计和3)基于高容量函数逼近器(如神经网络)的参数模型。金融和计量经济学中的参数CDE。

使用道具

9
大多数88 在职认证  发表于 2022-6-14 06:02:59 |只看作者 |坛友微信交流群
金融和计量经济学的大部分工作都使用标准参数族来模拟股票收益和其他工具的条件分布。通常,采用高斯分布,通过时间序列模型预测条件分布的参数。这一类别的一个流行实例是ARMA-GARCH方法,该方法通过线性关系对条件高斯的均值和方差进行建模(Engle,1982;Hamilton,1994)。Garchattest的各种推广可以模拟不对称回报分布和负偏度(Nelson和Cao,1992;Glosten等人,1993;Sentana,1995)。进一步的工作采用student-t分布作为条件概率模型(Bollerslev et al.,1987;Hansen et al.,1994),并对高阶矩对过去的依赖性进行建模(Gallant et al.,1991;Hansen et al.,1994)。虽然本文中提出的基于神经网络的CDE方法也是参数模型,但它们对基本关系和密度族的假设很少。条件变量和分布参数之间的关系以及概率密度本身都是用灵活的函数类(即神经网络和GMM)建模的。相比之下,传统的财务模型强加了很强的假设,如线性关系和高斯条件分布。目前尚不清楚这种建模限制在多大程度上与经验数据一致,以及它们对推断的偏差有多大。非参数CDE。计量经济学中一个截然不同的工作领域旨在以非参数方式估计密度。最初于Rosenblatt(1956年)引入;Parzen(1962),KDE使用核函数根据与所有训练点的距离来估计查询点处的概率密度。

使用道具

10
能者818 在职认证  发表于 2022-6-14 06:03:02 |只看作者 |坛友微信交流群
原则上,核密度估计器可以在没有参数假设的情况下近似任意概率分布。然而,在实践中,数据是有限的,需要进行平滑处理才能在训练数据之外实现令人满意的泛化。KDE的基本问题,通常被称为带宽选择问题,是选择适当的平滑量(Park et al.,1990;Cao et al.,1994)。常见带宽选择方法包括经验法则(Silverman,1982;Sheller和Jones,1991;Botev等人,2010)和基于交叉验证的选择器(Rudemo,1982;Bowman,1984;Hall等人,1992)。为了估计条件概率,之前的工作建议使用KDE分别估计联合概率和边际概率,然后计算条件概率作为其比率(Hyndman et al.,1996;De Gooijer and Zerom,2003;Li and Racine,2007)。其他方法将非参数元素与参数元素相结合(Tresp,2001;Sugiyama和Takeuchi,2010),形成半参数条件密度估计。尽管非参数密度估计具有理论上的外观,但它们仍存在以下缺点:首先,它们在数据稀疏的区域概括能力较差,尤其是在分布的尾部区域。其次,随着因变量维数的增加,它们的性能迅速恶化。这种现象通常被称为“维度诅咒”。带神经网络的CDE:MDN、KDE、规范化流。第三行工作从参数角度接近条件密度估计。然而,与金融和计量经济学中的参数建模相比,此类方法使用高容量函数逼近器,而不是强约束参数族。我们的工作建立在Bishop(1994)和Ambrogioni等人的工作基础上。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-19 12:18