楼主: 可人4
1454 41

[量化金融] 数据驱动的统计不确定性非线性期望 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-5-25 16:44:32
这对于所有度量值Q都有很好的定义∈ M、 并给出期望值:supQ∈M公式[ξ]- αk,β(Q)=βlog Ek,1Q | x(eβξ)。3大样本理论在本节中,我们将寻求研究非线性期望Ek,γQ | x的大样本理论。在实践中,这对于给出其行为的近似值和定性描述特别有用。在本节中,我们将假设我们有观测值{Xn}n∈N、 在X,{Xn}N下的测度Q族∈Nare iid随机变量,对应密度f(x;Q)dx。我们写xN=(X,…,xN)。对于大N,我们有兴趣确定Ek,γQ | xN(φ(X)),其中φ是有界函数。对于s隐式,我们假设MLE存在(然而,我们的结果可以扩展以删除此假设,同时增加符号复杂性)。我们为基于Q-MLE的onobservations xN编写了^qn。鉴于缺乏正同质性,考虑c-1NEk,γQ | x(cNξ),其中cN规定了N的增长。以下引理允许我们改变不确定度参数k。引理1。对于任何k>0,任何γ<∞, 任意随机变量ξ,k-γE1,γQ | x(kγξ)=Ek,γQ | x(ξ)。证据k-γE1,γQ | x(kγξ)=k-γsupQ∈QnEQ[kγξ| x]-αQ | x(Q)γo=supQ∈QnEQ[ξ| x]-kαQ | x(Q)γo=Ek,γQ | x(ξ)为了能够简单描述我们的渐近结果,我们回顾了以下定义4。对于函数f和g,只要f(N)/g(N)是随机有界的(即P(| f(N)/g(N)|>M),我们将写出f=OP(g(N))→ 0 asM→ ∞ 对于每个N)和f=oP(g(N)),只要P-limN→∞|f(N)/g(N)|=0。请注意,这取决于度量值P的选择。在经典情况下(即。

22
能者818 在职认证  发表于 2022-5-25 16:44:36
当收敛不是概率时)。如果需要的话,用不同的惩罚代替熵可以考虑其他效用函数。3.1非参数结果我们现在给出一些结果,当我们不假设Q来自“好”的参数族时。鉴于我们将取密度族的上确界,我们需要一个统一的大数定律。因此,我们作出以下定义。定义5。我们说Q族是Glivenko–Cantelli–Donsker度量类(或GCD类),如果,对于任何P∈ Q*supQ公司∈QnαQ | xN(Q)N- DKL | X(P | Q)o=OP(N-1/2)(如果支持*指最小可测量包络,以确保可测量性)。备注10。之所以取这个名字(Glivenko–Cantelli–Donsker)是因为,如果我们在用对数似然族为经验分布编制索引时有一个统一的弱Glivenko–Cantelli定理,那么括号中的项在概率上收敛为0。如果我们还有一个统一的Donkser定理,那么我们知道√NαQ | xN(Q)/N- DKL(P | | Q)收敛(在某种意义上)到一个有限值高斯过程,这意味着它属于或定义。鉴于极大似然估计的一致性和某些可积性,很容易证明有限族Q始终是GCD类。引理2。假设Q是一个测度族,使得{Xn}n∈Nare iid,各密度{f(·;Q)}Q∈Qwhich satisfyi)有一个紧集K,使得对于每个P∈ Q、 P(X∈ K) =1ii)存在>0,使得<infQ∈Qminx公司∈Kf(x,Q),iii)存在C<∞ ρ>1/2,对于所有的P,Q∈ Q、 似然比f(·,Q)/f(·,P)取[C]中的值-1,C]和与范数C不一致的ρ-H¨oldercontinuous,即写L(x)=f(x,Q)/f(x,P),supx,y | L(x)- L(y)| | x- y |ρ≤ C、 那么Q是一类GCD度量。证据见附录。我们现在可以证明以下版本的大数定律和中心极限定理。

23
kedemingshi 在职认证  发表于 2022-5-25 16:44:40
我们从γ=1的情况开始。定理2。假设Q是一类GCD度量值,kN=o(N)。考虑随机变量ξ=φ(X),其中φ是有界可测函数,X,{Xn}n∈每个Q下的Nare iid∈ Q、 (i)EkN,1Q | xN是一致估计量,即isEkN,1Q | xN(ξ)→PEP[ξ]为N→ ∞ 对于每个P∈ Q、 (ii)我们有渐近行为(如N→ ∞, 对于每个P∈ Q) EkN,1Q | xN(ξ)≤ EP[ξ]+kNNVarP(ξ)+OkNN公司+ OP公司N1/2kN当P的密度为f(x;P)=f(x;P)λ时,对于所有N个足够大的N,具有相等性-kNNφ(x)(其中选择λ>supxφ(x)以确保这是一个概率密度)也是Q中的(这可以被认为与中心极限定理有关,参见示例2)备注11。假设基于Q-MLE的实验误差渐近为1阶/√N、 (ii)所暗示的要求√N、 不足为奇,因为这就是需要确保风险厌恶项kn2nvar(ξ)渐近地控制EP估计的统计误差[ξ]。证据我们通过证明(ii)而变得愚蠢。由于Q是GCD c类,我们知道,NαQ | xN(Q)- DKL | X(P | Q)≤ OP(N-1/2),误差独立于Q有界。因此,在Q中一致,kNαQ | xN(Q)-NkNDKL | X(P | | Q)≤ OP(N1/2/kN)。计算EkN,1Q | xN(ξ),我们得到EkN,1Q | xN(ξ)=supQ∈QnEQ[ξ]-kNαQ | xN(Q)o=supQ∈QnEQ[ξ]-NkNDKL | X(P | Q)o+OP(N1/2/kN)。现在,我们将重点解决这个问题,前提是该概率由(N/kN)DKL(P | | Q)给出。对于固定N,我们可以尝试直接解决这个简化的问题。假设将通过表示为Qg的度量获得最佳值,这对应于确定密度g=f(·,Qg)。变分法yie ldsφ+NkNgf(·,P)+λ= 0,或等效yg=f(·,P)λ-kNNφ,其中选择λ以确保g是密度,即EP[(λ-kNNξ)-1] =1。

24
可人4 在职认证  发表于 2022-5-25 16:44:44
这需要λ>kNNsupxφ(x)(这就是我们计算ξ=φ(x)有界的原因)。作为映射λ7→ (λ-kNNφ(x))-1是单调的,我们也知道λ的对应值是唯一的,λ∈h1+kNNinfxφ(x),1+kNNsupxφ(x)i。这避免了与λ>kNNsupxφ(x)的要求不一致,只要Nis足够大,以至于nkn>2 supx |φ(x)|。对于非常固定的大N,我们有λ值的影响。因此,我们可以假设(λ-kNNξ)-1在λ=1+kNNEP[ξ]附近由其在λ中的泰勒级数统一逼近。此外,我们立即看到第一个近似值λ=1+kNNEP[ξ]+O(kN/N)。展开(λ)的泰勒级数-kNNξ)-1,我们有1=EPh1-λ- 1.-kNNξ+λ- 1.-kNNξ+ ...ior等效λ=1+KNEP[ξ]+EPhλ- 1.-kNNξi+OEPh公司λ-1.-kNNξ我. (2) 将(2)右侧的λ的第一个近似值替换为λ=1+KNEP[ξ]+kNN公司VarP[ξ]+OkNN公司.将第二个近似代入(2),我们观察到误差可以取为O((kN/N)),而不是O((kN/N))。我们现在可以近似我们的凸预期。我们知道eqg[ξ]=EPhξλ-kNNξi=EPhξ1.-kNN(EP[ξ]- ξ) +O((千牛/牛))i=EP[ξ]+kNNVarP[ξ]+O((kN/N))和类似的EphlogdPdQgi=EPhlogλ-kNNξ我=kNN公司VarP[ξ]+OkNN公司.因此,我们可以计算所需的近似值kn,1Q | xN(ξ)=supQ∈QnEQ[ξ]-NkNDKL | X(P | Q)o+OPN1/2kN≤ 方程式[ξ]-NkNEPhlogdPdQgi+OPN1/2kN= EP[ξ]+kN2NVarP(ξ)+OkNN公司+ OP公司N1/2kN.(3) 只要Qg相等∈ Q、 如(ii)所述。我们现在寻求将假设简化为(i)。增加KN只会增加(非负)差值Sekn,1Q | xN(ξ)- E^QN[ξ],E^Q[ξ]+EkN,1Q | xN(-ξ) 我们知道E^QN[ξ]是一致的,我们可以假设N1/2/kN→ 0不丧失通用性。在此假设下,(3)的右手侧收敛于EP[ξ],因此我们验证了EkN,1Q | xN(ξ)→PEP[ξ]符合要求。备注12。

25
可人4 在职认证  发表于 2022-5-25 16:44:48
假设Q非常丰富,kN/√N→ ∞ (因此,(ii)的近似是有用的)这个结果意味着,如果我们有ξ=φ(X)的均值和方差的简单估计量,例如{φ(Xn)}n的经典样本均值和方差∈N(有错误OP(N-1/2)),那么我们有渐近近似值kn,1Q | x(ξ)≈\\EP[ξ]+kNN\\VarP(ξ)。众所周知,平均方差准则通常不是凸表达式,但对于高斯分布仍保持凸性(例如,参见[8])。在这种情况下,我们可以看到中心极限定理使我们的不确定性近似为高斯分布,因此没有矛盾。我们现在考虑γ=∞. 很容易检查intervalIN(ξ)=h- 埃克,∞Q | xN(-ξ) ,埃克,∞Q | xN(ξ)是E[ξ]的一个似然区间,也就是说,它对应于在Q中测量的期望范围,似然至少为E-k、 此类区间通常用作置信区间的推广(例如,参见Hudson[12],借鉴了Neyman和Pearson[18]的著名结果)。在这种情况下,我们将看到,由于密度区域在φ中是一致的,因此更强大的属性成立。(另见定理6。)定理3。假设Q是GCD族,X,{Xn}n∈eachQ下的Nare iid∈ Q、 如果kN=o(N),则γ=∞ 是一致相合估计量,即supφ:|φ|≤1nEkN,∞Q | xN(φ(X))- EP[φ(X)]o→P均为P0∈ Q、 证明。注意这一点,∞Q | xN(φ(X))=supQ:αQ | xN(Q)≤kN{等式[φ(X)]}。因为Q是一个GCD类,我们知道对于任何P∈ Q、 NαQ | xN(Q)=DKL | X(P | Q)+OP(N-1/2)如此,前提是kN=o(N),αQ | xN(Q)≤ 千牛<=> DKL | X(P | Q)≤kNN+OP(N-1/2)=oP(1),终端误差在Q中均匀。

26
mingdashike22 在职认证  发表于 2022-5-25 16:44:53
从Pinsker不等式中,仅从X的边际定律来看,我们知道总变化不满足f(X;P)- f(x;Q)| dx=P |σ(X)- Q |σ(X)电视≤q2DKL | X(P | Q)。因此,supφ:|φ|≤1nEkN,∞Q | xN(φ(X))- EP[φ(X)]o=supφ:|φ|≤1sup{Q:αQ | xN(Q)≤kN}nEQ[φ(X)]- EP[φ(X)]o=supφ:|φ|≤1sup{Q:DKL | X(P | | Q)≤oP(1)}nEQ[φ(X)]- EP[φ(X)]o≤ sup{Q:DKL | X(P | | Q)≤oP(1)}nP |σ(X)- Q |σ(X)TVo≤ oP(1)。因此,非线性期望是一致一致一致的估计量。通过简单的比较,我们还得到了所有其他γ的一致性∈ [1,∞].推论1。如果Q是GCD等级,则kN=o(N)和γ∈ [1,∞], 非线性期望Ek,γQ | xN(φ(ξ))是EP[φ(ξ)]的一致估计量。证据我们知道两个极端情况γ=1和γ=∞ 两者都是一致的,就像MLE E^QN[φ(ξ)](例如,根据事实E^QN[ξ]∈ IN,其中INis如定理3所示。此外,对于任何γ,as | x |γ≥ 最小{| x |,| x|∞}, 很容易从e^QN[ξ]的定义中进行检查≤ EkN,γQ | xN(ξ)≤ maxnEkN,1Q | xN(ξ),EkN,∞Q | xN(ξ)o。结果如下。备注13。可以看出,Ek,γQ | x(ξ)也有一种解释,即通过EPh |ξ的顺序r对EP[ξ]进行扰动-E[ξ]|/√Ni2γ/(2γ)-1) 。在其他环境中很少考虑这些类型的扰动,因此此类结果似乎纯粹是技术上的兴趣。3.2参数结果我们现在认为Q是一类来自“好”参数族的度量。在这种情况下,通过将散度视为参数的函数,而不是概率测度的抽象空间的函数,我们可以获得更精确的渐近性。为了简单起见,我们将考虑指数度量族,它对于许多应用来说足够普遍,但提供了足够的结构来获得紧密的结果。我们也将在整个过程中假设,对于每个Q∈ Q、 X,{Xn}n∈Nare iid,密度为f(·;Q)。定义6。

27
kedemingshi 在职认证  发表于 2022-5-25 16:44:56
如果密度可以写f(x;Q)=h(x)expnhθ,T(x)i,则称分布来自指数族(自然参数)- A(θ)o。这里θ是Q的参数,并且是rdd的开放子集Θ。对于某些d,T是有效统计量的向量,h是归一化函数,是对数配分函数。我们假设Q对应于所有参数为Θ的测量值,并为Q的参数写θqf,为与θ相关的测量值写Qθ,为EQθ写Eθ,等等。。。我们将使用的关键结果是A是凸的和光滑的(尤其是连续的三阶导数)。事实上,我们将使用以下稍微强一点的条件。假设1。(i) 黑森iθ=A(θ)(通常称为信息矩阵)在Θ的每个点(严格地)都是正定义的。(ii)Q-MLE存在且一致,概率趋向于1作为N→∞ (即,对于每个Q∈ Q、 最大化子^QNexists的Q-概率接近1且^θN=θQN→QθQ)。这些假设可以通过对所考虑的家庭的弱假设来证明,例如,参见Berk【5,定理3.1】、Silvey【20】或Lehmann【15】的更一般的讨论(同样参见【16】)。有关指数族中可能性理论的更深入讨论,请参见Barndorff-Nielsen[2]。观察到,每当Q-MLE^θ存在时,散度由αQ | xN(θ)=-NXn=1hθ-θN,T(Xi)i+NA(θ)- A(^θN),使用自然滥用的符号αQ | xN(θ):=αQ | xN(Qθ)。如果一个最阶条件在MLE中保持不变,我们可以简化以消除对观测值的依赖(通过MLE除外)αQ | xN(θ)=NA(θ)- A(^θN)- hθ-^θN,A(^θN)i.下面的结果将允许我们得到罚分的严格渐近近似值,因为它将允许我们将注意力集中在MLE周围的一个小球上。引理3。设ρ>0为常数,设^θNdenoteθ的极大似然估计。

28
nandehutu2022 在职认证  发表于 2022-5-25 16:44:59
然后,foreach P∈ Q,存在常数c,c依赖于N,写r=cρN∨rcρN=O(N-1/2)我们有αQ | x(θ)>ρ,对于所有θ:kθ-^θk>R→ 换言之,当kθ时,我们很有可能知道αQ | x>ρ-^θk>R=O(N-1/2)。证据见附录。备注14。前面的结果主要用来说明,当我们考虑有界随机变量时,对于任何P∈ 我们可以用αQ | xN(θ)=N(θ)来近似离散度-^θN)hI^θN+OP(N-1/2)i(θ-^θN)。这本身就是一个有趣而有用的结果,尤其是当我们将预测方法作为更大问题的第一步时。例如,当我们使用DR期望来捕获模型校准中的不确定性时,我们希望在各种设置中使用该模型。该结果表明,使用观察到的信息矩阵来惩罚是不够的(首先或其次),而不是重复计算似然函数。这是我们在(1)中得出的近似值。由于近似值是二次函数,因此计算Ek,γQ | x所需的优化非常简单(尤其是对于参数的线性或二次函数),这可能具有显著的数值优势(参见Ben-Tal和Nemirovski[3])。现在,我们使用这个近似来给出对期望的辛估计。这可以看作是对中心极限定理的模拟(参见示例2)。请注意,与非参数c情况不同,我们不需要将风险厌恶参数k缩放为N→ ∞. 可以方便地进行以下定义。定义7。设φ为有界函数,使得映射|φ:θ7→ Eθ[φ(X)]是可区分的。We writeV(φ,^θ):=(φ|θ)(一)-1^θ)(φ|^θ)。备注15。

29
可人4 在职认证  发表于 2022-5-25 16:45:02
注意,通过经典参数,如果φ可以写成有效统计的线性函数,那么v(φ,θ)=Var(φ(X))。如果^θNhas是中心极限定理中出现的方差,即Var(^θN)≈N-1I-1θP,然后(给定适当的可积性和连续性假设数组),我们得到了MLE期望nv(φ,^θ)的近似方差≈ VarP(E^θN[φ(X)])。定理4。设φ为有界函数,使得映射|φ:θ7→ 等式θ[φ(X)]是二次微分。那么对于所有P∈ Q、 Ek,1Q | xN(φ(X))=E^θN[φ(X)]+k2NV(φ,^θN)+OP(N-3/2)。证据修复P∈ Q、 为简单起见,我们将^θ写为^θN。首先,观察thatEk,1Q | xN(φ(X))=supθ∈ΘnEQθ[φ(X)]-kαQ | xN(θ)o当φ有界时,我们只需要考虑这些测度ΘN=Nθ∈ Θ:αQ | xN(θ)≤ 从引理3,我们知道psupθ∈ΘNkθ-^θk>O(N-1/2)→ 0、我们知道^θ→PθPandφ在θP处是二次可微的,因此对于θ∈ ΘN,EQθ[φ(X)]=°φ(^θ)+Dθ-^θ,φ|^θ+OP(kθ-^θk)E=°φ(^θ)+Dθ-^θ,φ|θ+OP(N-1/2)我们也知道αQ | xN(θ)是光滑的、凸的,并且在θ处最小化,θ也是如此∈ ΘN,αQ | xN(θ)=N(θ-^θ)hI^θ+OP(kθ-^θk)i(θ-^θ)=N(θ-^θ)hI^θ+OP(N-1/2)i(θ-^θ)。代入这些,我们得到近似的DR expectationEk,1Q | xN(φ(X))=(R)φ(φθ)+supθ∈ΘNnDθ-^θ,φ|θ+OP(N-1/2)E-N2k(θ-^θ)hI^θ+OP(N-1/2)i(θ-^θ)o.参见Lehmann【15,第7.7节】f,了解其适用的一组有效条件。大括号中的术语具有优化器θ*=^θ+kNI^θ+OP(N-1/2)-1.θ|θ+OP(N-1/2),我们知道的是,作为θ→ θPand IθP为正定义,P-概率接近1矩阵I^θ+OP(N-1/2)是非奇异的。代入,我们得到了所需的近似值k,1Q | xN(φ(X))=°φ(^θ)+k2N(φ|θ)(一)-1^θ)(φ|θ)+OP(N-3/2)。我们现在考虑γ=∞.定理5。设φ为有界函数,使得映射|φ:θ7→ 等式θ[φ(X)]是二次微分。

30
能者818 在职认证  发表于 2022-5-25 16:45:07
那么对于所有P∈ Q、 埃克,∞Q | xN(φ(X))=E^θN[φ(X)]+r2kNV(φ,φθN)+OP(N-3/4)。证据证明遵循了cas eγ=1的基本方式,我们使用了相同的符号。我们知道这一点,∞Q | xN(φ(X))=E^θ[φ(X)]+supθ:αQ | xN(θ)≤kDθ-^θ,φ|^θ+OP(kθ-我们看到αQ | xN(θ)=N(θ-^θ)hI^θ+OP(kθ-^θk)i(θ-^θ)和fr om引理3,当概率接近1时,很难考虑ΘN={θ:kθ-^θk<OP(N-1/2)}。标准优化然后yieldsEk,∞Q | x(φ(x))- E^θ[φ(X)]=rk2N(φ|θ+OP(N-1/2)hI^θ+OP(N-1/2)i-1个(φ|θ+OP(N-1/2)1/2=rk2N(φ|θ)我-1^θ(φ|θ)1/2+OP(N-3/4)。结果如下。备注16。案例γ∈ (1,∞) 也可以使用引理3所暗示的近似值来处理(以注释14所建议的方式),并留给读者作为一个重要的练习。下面的结果可以证明是成立的,假设Q是我们在这里考虑的指数族,或者更一般。这尤其令人感兴趣,因为它自然是结果空间上的“统一”结果(不需要有界或独立于观察)。这在决策过程中非常重要,因为我们通常希望在一系列结果ξ之间进行选择,并希望确定我们的比较方法同时适用于所有选择。定理6。假设极大似然估计是一致的,并且威尔克斯定理在每一个P∈ Q(即,αQ | xN(P)在P下渐近χd分布,其中d是一个已知参数)。然后,对于随机变量ξ,IN(ξ)=h- 埃克,∞Q | xN(-ξ) ,埃克,∞Q | xN(ξ)是E[ξ]的一个具有一致渐近性质的似然区间EP[ξ| xN]∈ 信息全部ξ≥ Fχd(2k)。证据与似然区间对应的IN(ξ)corr是微不足道的,如γ=∞这意味着我们正在考虑对数似然(相对于MLE)至少为k的度量下的预测。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 17:08