楼主: 能者818
1164 23

[量化金融] 任意罕见事件的贝叶斯后验概率 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
37.8378
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-5-25 14:19:21 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Bayesian Posteriors For Arbitrarily Rare Events》
---
作者:
Drew Fudenberg, Kevin He, and Lorens Imhof
---
最新提交年份:
2017
---
英文摘要:
  We study how much data a Bayesian observer needs to correctly infer the relative likelihoods of two events when both events are arbitrarily rare. Each period, either a blue die or a red die is tossed. The two dice land on side $1$ with unknown probabilities $p_1$ and $q_1$, which can be arbitrarily low. Given a data-generating process where $p_1\\ge c q_1$, we are interested in how much data is required to guarantee that with high probability the observer\'s Bayesian posterior mean for $p_1$ exceeds $(1-\\delta)c$ times that for $q_1$. If the prior densities for the two dice are positive on the interior of the parameter space and behave like power functions at the boundary, then for every $\\epsilon>0,$ there exists a finite $N$ so that the observer obtains such an inference after $n$ periods with probability at least $1-\\epsilon$ whenever $np_1\\ge N$. The condition on $n$ and $p_1$ is the best possible. The result can fail if one of the prior densities converges to zero exponentially fast at the boundary.
---
中文摘要:
我们研究当两个事件任意罕见时,贝叶斯观察者需要多少数据才能正确推断两个事件的相对可能性。每一个周期,要么抛出一个蓝色骰子,要么抛出一个红色骰子。两个骰子落在1美元一边,概率未知,p\\u 1美元和q\\u 1美元,可以任意低。给定一个数据生成过程,其中$p\\u 1\\ge c q\\u 1$,我们感兴趣的是需要多少数据来保证观察者对$p\\u 1$的贝叶斯后验平均值很有可能超过$q\\u 1$的$(1-\\delta)c$倍。如果两个骰子的先验密度在参数空间内部为正,并且在边界处表现为幂函数,则对于每$\\ε>0,存在一个有限的$\\ N$,以便观察者在$\\ N$周期后获得这样的推断,每当$\\ np\\u 1\\ge N$时,概率至少为$\\ε$。n$和p\\u 1$的条件是最好的。如果一个先验密度在边界处以指数速度收敛到零,则结果可能失败。
---
分类信息:

一级分类:Mathematics        数学
二级分类:Statistics Theory        统计理论
分类描述:Applied, computational and theoretical statistics: e.g. statistical inference, regression, time series, multivariate analysis, data analysis, Markov chain Monte Carlo, design of experiments, case studies
应用统计、计算统计和理论统计:例如统计推断、回归、时间序列、多元分析、数据分析、马尔可夫链蒙特卡罗、实验设计、案例研究
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Statistics        统计学
二级分类:Statistics Theory        统计理论
分类描述:stat.TH is an alias for math.ST. Asymptotics, Bayesian Inference, Decision Theory, Estimation, Foundations, Inference, Testing.
Stat.Th是Math.St的别名。渐近,贝叶斯推论,决策理论,估计,基础,推论,检验。
--

---
PDF下载:
--> Bayesian_Posteriors_For_Arbitrarily_Rare_Events.pdf (199.59 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:后验概率 贝叶斯 Quantitative Multivariate Probability

沙发
可人4 在职认证  发表于 2022-5-25 14:19:26
任意罕见事件的贝叶斯后验概率评论Fudenberga、Kevin Heb和Lorens A.ImhofcaDepartment of Economics,Massachusetts Institute of Technology,Cambridge,MA 02139,USA,电子邮件:drew。fudenberg@gmail.combDepartment哈佛大学经济学系,剑桥,MA 02138,美国,电子邮件:hesichao@gmail.comcDepartment德国波恩大学统计与豪斯多夫数学中心,邮编:53113,波恩,电子邮箱:limhof@uni-波恩。删除关键字。罕见事件,贝叶斯估计,一致一致性,多项式分布,信号博弈抽象。我们研究当两个事件任意罕见时,贝叶斯观察者需要多少数据才能正确推断两个事件的相对可能性。每一个周期,要么抛出蓝色骰子,要么抛出红色骰子。两个骰子落在第1面,概率未知,可任意低。给定一个数据生成过程,其中p≥ cq,我们感兴趣的是需要多少数据来保证观察者的贝叶斯后验均值(1-δ) c乘以q。如果两个骰子的先验密度在参数空间内部为正,并且在基础上表现为幂函数,则对于每一个>0,存在一个有限的N,以便观察者在N个周期后以至少1的概率获得这样的推断-whenevernp≥ N、 N和pis的条件是最好的。如果先验密度中的一个在边界处以指数速度收敛到零,则该结果可以得到。重要声明。从药物安全测试到博弈论学习模型,许多决策问题都需要对两个事件的可能性进行贝叶斯比较。当这两个事件任意罕见时,需要一个大的数据集才能以高概率做出正确的决策。

藤椅
能者818 在职认证  发表于 2022-5-25 14:19:30
先前工作中的最佳结果要求数据量以罕见的速度快速增长,以至于对罕见事件的观测数量的预期激增。我们证明,对于一大类先验,这个期望值超过先验相关常数就足够了。然而,如果对先前的结果没有一些限制,那么结果将失败,并且我们对数据大小的条件是最差的。引言假设一位医生正在为她的患者选择常规手术还是新批准的药物。在极少数情况下,任何一种治疗都可能导致危及生命的并发症。她采用贝叶斯方法来估计各自的并发症概率,这在医学从业者处理罕见事件时很常见,例如美国食品和药物管理局(2000)和汤普森(2014)关于“零分子问题”她阅读医学文献以了解与这两种治疗相关的门诊患者结果,并选择新药,前提是且仅当她关于药物并发症概率的后验平均值低于(1- δ) 手术次数。当两种治疗的真正并发症概率都变小时,n需要以多快的速度增加才能确保医生正确选择概率至少为1的手术-什么时候手术才是更安全的选择?更一般地说,我们研究在数据生成过程中,两个概率上的贝叶斯后验平均值需要多少数据才能满足它们之间的不等式,其中这些真实概率可能非常小。每个句号,从两个骰子中选择一个,蓝色或红色,进行投掷。选择可以是确定性的,也可以是随机的,但必须独立于过去的结果。

板凳
能者818 在职认证  发表于 2022-5-25 14:19:33
蓝色和红色骰子以未知概率PK和qk落在k侧,掷骰子的结果与过去的结果无关。假设一个贝叶斯观察器的后验信度满足(c,δ)-k边单调性,如果他的后验信度超过(1-δ) c乘以q'k的真实概率,p'k≥ cq'k。我们假设先验密度在概率单纯形内部是连续的和正的,并且在边界处表现为幂函数。然后,我们证明,在颜色频率的温和条件下,对于每一个>0,存在一个有限的N,因此观察者在N个周期后保持(c,δ)-单调信念,概率至少为1- whenevernp?k≥ N、 这种情况意味着k侧蓝色蝶形区的预期次数必须超过一个与真参数无关的常数。实例表明,样本大小条件是可能的最佳条件,如果先验密度之一在边界处以指数形式快速收敛到零,则结果可能失败。我们问题的一个关键方面是当真实参数值接近参数空间的边界时,估计值的行为,这种情况很少在贝叶斯环境中研究。假设在每个时期,选择蓝色骰子的概率相同,并且结果“k”在蓝色骰子下比在红色骰子下更可能出现。然后,在我们的条件下,看到结果k但没有看到死亡颜色的o观察者很可能将后验优势比分配给蓝色与红色,这并不比之前的优势比低多少。也就是说,观察者不太可能在错误的方向上更新自己的信念。

报纸
能者818 在职认证  发表于 2022-5-25 14:19:36
Fudenberg和He(2017)利用这一推论为信号游戏中的均衡竞争提供了基于学习的基础。迄今为止已知的最相关结果是Diaconis和Freedman(1990)一致一致性结果的结果。只有在样本量非常大的情况下,他们的结果才能得出期望的结论,即蓝色模具在k侧着陆的预期次数超过了与1/p'k成比例的阈值。也就是说,从他们的结果中获得的阈值p'k爆炸为零。我们对样本量条件的改进是通过一个新的pairof不等式实现的,该不等式将Bayes估计与观测频率联系起来。就像Diaconis和Freedman(1990)的边界一样,不等式适用于所有没有异常空集的样本序列,并且它们不涉及真正的参数值。我们的结果与Bochkina和Green(2014)最近的一个结果相关,该结果表明,在某些条件下,当真实参数在边界上时,后验分布会更快收敛。我们的结果也与D udley和Haughton(2002)有关,他们认为半空间不包含真参数的最大似然估计,并研究分配给半空间的后验概率收敛到零的速度。2、多项概率的Bayes估计我们首先考虑一个简单的问题,即估计单面K型模具在不同侧面着陆的概率。假设模具被独立抛n次。设XnK表示模具落在k侧的次数。然后Xn=(Xn,…,XnK)具有参数n的多项式分布∈ N一个ndunknown参数p=(p,…,pK)∈ , 其中N是正整数和的集合 = {p∈ [0,1]K:p+····+pK=1}。设N=N∪ {0}。

地板
何人来此 在职认证  发表于 2022-5-25 14:19:40
L etπ为初始密度 关于Lebesgue测度λon, 按λ归一化() = 1/(千)- 1) !。观察Xn后,取π(·| Xn)为后验密度。出于某些pk可以任意小的应用的动机,我们感兴趣的是Bayes估计量^pk(Xn)=Rpkπ(p | Xn)dλ(p)的相对误差是否很小,在. 具体而言,给定k∈ {1,…,K}和>0,我们寻求关于nand p和先验的条件,因此(1)Pp(|^pk(Xn)- pk |<pk)≥ 1.- 。P或E上的下标表示概率或期望的参数值。对于一大类先验,我们在定理1中证明,存在一个与未知参数无关的常数N,因此(1)在Ep(Xnk)时成立≥ N、 表示内部 按int.条件P,我们说密度π 满足条件P(α),其中α=(α,…,αK)∈ (0,∞)K、 如果π(p)QKk=1pαK-1kis一致连续且在int上远离零. 如果存在α,则π满足条件P∈ (0,∞ )Ksoπ满足条件p(α)。例如,如果K=2,则π满足条件P(α),如果a且仅当π为正且在int上连续 和极限跛行→0π(p)/pαk-1K存在且为正叉=1,2。每K≥ 2,每个Dirichlet分布都有一个满足条件P的密度。请注意,条件P不要求密度以零为界,并且在边界处是完整的。目前关于边界行为的假设与Bochkina和Green(2014)的假设P相似。定理1。假设π满足条件P。

7
nandehutu2022 在职认证  发表于 2022-5-25 14:19:44
那么对于每>0,就存在∈ N s o该(2)Pp(|^pk(Xn)- pk |≥ pk)≤ 如果npk≥ N、 支持信息中给出了本节结果的证明。定理1的证明使用了下面位置1中给出的后验平均值的界。这些界限意味着有一个N∈ N所以如果npk≥ N,最大似然估计量nxnk接近pk,然后| pk(Xn)- pk |<pk。从切尔诺夫不等式可以看出,Nxnkis不接近topkis的概率最多为。不等式(2)表明,当真参数pk接近0时,贝叶斯估计量^pk(Xn)的精度更高。为了在特殊情况下解释这一事实,假设k=2,且先验是unifo r m分布。然后^pk(Xn)=(Xnk+1)/(n+2),^pk(Xn)的均方误差为[npk(1-pk)+(1-2pk)]/(n+2),当pk时收敛到0∈ (0,1)是固定的,并且当pk=n时相似。此外,根据马尔可夫不等式,(2)中的概率小于(npk+1)/(npk),因此在这种情况下,我们可以选择n=2/。一般来说,我们对阈值N没有明确的表达式,但在备注2中,我们讨论了对证明中构造的N有影响的优先级的性质。条件P允许先验密度在就像一个指数任意大的幂函数。下面的例子表明,对于以指数速度收敛到0的先验密度,定理1的结论不成立。示例1。设K=2,π(p)∝ E-1/p,δ>0。然后每N∈ N、 存在p∈  和n∈ N带N+δp≥ N因此PP(| p(Xn)- p |>p)=1。这个例子背后的想法是,先验知识在p=0的边界点附近分配的质量非常小,因此如果真参数pis很小,观察者需要大量数据才能确信pis实际上很小。

8
kedemingshi 在职认证  发表于 2022-5-25 14:19:47
我们例子中的优先密度以指数速度收敛到0,如p→ 结果表明,为了使^p(Xn)/pis接近1,所需的数据量在1/p内呈二次增长。对于每个固定的N∈ N和δ>0,满足关系N+δp=N的对(N,p)涉及N相对于1/p的次二次增长率。因此,我们总是可以选择足够小的psuch,使相应的数据大小N不足。下一个例子显示了定理1的样本量条件npk≥N、 不能用ζ(N)pk形式的较弱条件代替≥ N对于具有lim supn的某些函数ζ→∞ζ(n)/n=∞. 换句话说,可以证明(2)的p的集合不能扩大到{p:pk形式的集合≥ φ(n)},其中φ(n)=o(1/n)。示例2。假设π满足条件P,设ζ:N→ (0,∞) 要这样做→∞ζ(n)/n=∞. 然后每N∈ N、 存在p∈  和n∈ n带ζ(n)p≥ N因此PP(| p(Xn)- p |>p)=1。在先验密度满足条件P的假设下,以下命题给出了后验平均值的相当明确的界限。结果完全是确定性的,适用于所有可能的样本序列。边界本身就很重要,lso在定理1和定理2的证明中起着至关重要的作用。提案1。假设π满足条件P(α)。那么对于每一个>0,存在一个常数γ>0,使得(3)(1- )nk+αkn+γ≤Rpk公司QKi=1pniiπ(p)dλ(p)RQKi=1pniiπ(p)dλ(p)≤ (1+)k+γn+γ,k=1,K和所有n,n,nK公司∈ NwithPKi=1ni=n。备注1。如果π是具有参数α的Dirichlet分布的密度∈(0,∞)K、 那么(3)中的不等式在=0,γ=PKk=1αK时成立,左侧的不等式是一个等式。如果π是虹膜分布混合物的密度,并且混合分布的支撑包含在区间[a,a]K中,0≤ A.≤ A<∞, 那么对于所有的k和n。

9
能者818 在职认证  发表于 2022-5-25 14:19:51
,nKwithPKi=1ni=n,(4)nk+an+KA≤Rpk公司QKi=1pniiπ(p)dλ(p)RQKi=1pniiπ(p)dλ(p)≤nk+An+Ka。我们的主要结果定理1和定理2的证明适用于所有密度满足不等式(3)或(4)的先验。特别是,如果先验分布是虹彩分布的混合,并且混合分布的支撑是有界的,则这些定理及其推论的结论成立。备注2。条件P(α)意味着函数π(P)/QKk=1pαk-1k,p∈ 内景,可以推广到上的连续函数∧π(p). 命题1的优点在于∧π可以由Bernstein多项式一致逼近。对证明的检验表明,(3)中的常数γ可以取为m+PKk=1αk,其中m非常大,以致于hm,第m次Bernstein多项式|π,满足最大值{hm(p)- ~π(p)|:p∈ } ≤最小{π(p):p∈ }1+2-因此,除了较小的值外,密度π的以下性质还导致了较大的ge值γ:(i)ifPKk=1αkis大,(ii)如果π是一个“粗糙”函数,那么∧π很难近似,而m需要大,(iii)如果∧π在某处接近0。定理1中的阈值N取决于命题1中通过常数γ的先验值,而刚才描述的π的性质也将导致N的大值。特别是,N→ ∞ ifPKk=1αk→ ∞. 例如,考虑K=2的一系列优先级π(j),其中π(j)是带参数(j,1)的狄利克雷分布的密度,因此π(j)满足条件P(α),α=j→ ∞, π(j)收敛速度越来越快→ 0,尽管从未像示例1中那样快,其中没有一个定义N可以满足定理1的结论。如果n=4j和p=,那么在π(j)下,^p(Xn)=(Xn+j)/(n+j+1)≥ 2p,所以对于每个∈ (0,1),定理1中的概率为1。因此,结论成立的最小N必须超过4j×=j。备注3。

10
mingdashike22 在职认证  发表于 2022-5-25 14:19:54
利用Bernstein多项式逼近度的结果,可以计算命题1和定理1中常数γ的显式值。详细信息见支持信息中的备注3′和3′。备注4。假设K>2,统计学家只对其中一个亲婴儿pk感兴趣,比如p'K。然后,他可以首先减少原始(K),而不是使用^p'K(Xn- 1) -维数估计问题,用于估计(Xn'k,Pk6='kXnk)的D ir ichlet分布的一维参数(p'k,Pk6='kpk)。然后,他将仅区分模具是否落在k侧,并将使用诱导的一维先验分布作为感兴趣的参数。如果原始先验是Dirichlet分布, 这两种方法都会导致p'k的Bayes估计量相同,但通常情况下,它们不会。支持信息中的命题2表明,只要原始密度π满足条件P,那么诱导密度也满足条件P。然而,即使原始密度不满足条件P,诱导密度也可能满足条件P。例如,如果K=3和π(p)∝ E-1/p+p,则π不满足条件p,但对于每个k=1,2,3,诱导密度满足。两个多项式分布的比较这里我们考虑两个骰子,蓝色和红色,每个骰子上都有K≥ 2个侧面。在每个时段,都会选择一个模具。我们首先考虑选择具有确定性且事先确定的情况。我们稍后将允许随机选择。根据蓝色和红色骰子的未知概率分布p=(p,…,pK)和q=(q,…,qK),将chosendie投掷并降落在第k侧。掷硬币的结果与过去的结果无关。问题的参数空间为.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-9 10:14