楼主: 大多数88
688 12

[量化金融] 信噪比的单样本和双样本非参数检验 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

68%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.4541
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23514 点
帖子
3880
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《One- and two-sample nonparametric tests for the signal-to-noise ratio
  based on record statistics》
---
作者:
Damien Challet
---
最新提交年份:
2015
---
英文摘要:
  A new family of nonparametric statistics, the r-statistics, is introduced. It consists of counting the number of records of the cumulative sum of the sample. The single-sample r-statistic is almost as powerful as Student\'s t-statistic for Gaussian and uniformly distributed variables, and more powerful than the sign and Wilcoxon signed-rank statistics as long as the data are not too heavy-tailed.   Three two-sample parametric r-statistics are proposed, one with a higher specificity but a smaller sensitivity than Mann-Whitney U-test and the other one a higher sensitivity but a smaller specificity. A nonparametric two-sample r-statistic is introduced, whose power is very close to that of Welch statistic for Gaussian or uniformly distributed variables.
---
中文摘要:
介绍了一类新的非参数统计,即r统计量。它包括计算样本累积和的记录数。对于高斯和均匀分布变量,单样本r统计量几乎与Student的t统计量一样强大,只要数据不是太重尾,它就比符号和Wilcoxon符号秩统计量更强大。提出了三种双样本参数r统计量,一种比Mann-Whitney U检验具有更高的特异性但敏感性较小,另一种具有更高的敏感性但特异性较小。介绍了一种非参数双样本r统计量,它的幂函数非常接近于高斯或均匀分布变量的Welch统计量。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Methodology        方法论
分类描述:Design, Surveys, Model Selection, Multiple Testing, Multivariate Methods, Signal and Image Processing, Time Series, Smoothing, Spatial Statistics, Survival Analysis, Nonparametric and Semiparametric Methods
设计,调查,模型选择,多重检验,多元方法,信号和图像处理,时间序列,平滑,空间统计,生存分析,非参数和半参数方法
--
一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--
一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--

---
PDF下载:
--> One-_and_two-sample_nonparametric_tests_for_the_signal-to-noise_ratio_based_on_r.pdf (1.9 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:非参数检验 参数检验 非参数 单样本 信噪比

沙发
能者818 在职认证  发表于 2022-5-7 15:32:58 |只看作者 |坛友微信交流群
基于记录统计的信号噪声比的一个和两个样本非参数测试Damien Challet1,2澳大利亚数学研究所,CentraleSup elec,92295 Ch^atenay Malabry CEDEX,Francencelade Capital SA,EPFL创新园,瑞士洛桑1015号,2018年摘要介绍了一个新的非参数统计家族,r-统计。它包括计算样本累积和的记录数。对于高斯和均匀分布变量,单样本r统计量几乎与Student的t统计量一样强大,只要数据不太重尾,它就比符号和Wilcoxon符号秩统计量更强大。本文提出了三种两样本参数r-统计量,一种比Mann-Whitney U-Test具有更高的特异性,但灵敏度较小,另一种具有更高的灵敏度,但特异性较小。介绍了一种非参数双样本r统计量,它的幂函数非常接近于高斯或均匀分布变量的韦尔奇统计量。关键词:非参数统计、信噪比、统计功率、AUC、记录统计1简介非参数统计在数据分析中发挥着特殊作用,因为它们通常更稳健,对基础数据分布的假设更少[1]。众所周知的非参数统计,例如单样本的符号和Wilcoxon符号Rankf,以及两个样本的Mann-Whitney U-统计,对于高斯或均匀分布变量,其功能远不如参数t-或Welch统计,而对于厚尾数据,则相反。在这里,我提出了一种新的非参数统计,称为r-统计,对于高斯变量,它几乎与t-和Welch统计一样强大,对于不太厚尾的变量,它比所有这些都更强大。

使用道具

藤椅
大多数88 在职认证  发表于 2022-5-7 15:33:01 |只看作者 |坛友微信交流群
因此,他们提供了一个强有力的替代常规统计数据的方法。让我们写下t统计量的定义,作为引入有用符号的一种方式。取感兴趣量的N个值的样本,用{xn}表示,N=1,···,N,假设为独立同分布(iid)。用帽子表示估计,样本的t统计量为^t=^θ√n其中,θ=μ/σ是其估计的信噪比(此后的信噪比),μ是其估计的平均值,σ是其估计的标准偏差。常用的非参数统计的稳健性部分是由于它们将样本值减少为整数,如ranksand符号,从而计算统计。同样的方法是基于定义为ξN={Xt}1的样本值的累积量(或相当于积分信号)的(整数)记录数的统计≤T≤nxt=Ptn=1xn,1≤ T≤ N.如果x的分布有一个零平均值,那么x就是t时刻无偏随机游走者的位置。一个基于Sparre-Andersen定理[2]的显著结果表明,在N步中上层记录数(或相当于运行最大值的跳跃数)的分布,用R+表示,不依赖于xnas的分布,只要它是对称的(即x和-x是等概率的,是连续的,样本值是不相关的[3];请注意,起始点始终被视为第一个上(和下)记录(见图1)。此外,这个分布是已知的:P(R+,N)=2N- R++1N/22N-R++1,(1)趋于高斯分布N(p4N/π,(4)- 2/π)N)对于大N[3]。出于对称性原因,较低记录的数量(即运行最小值的跳数)用R表示-, 遵循相同的分布。

使用道具

板凳
mingdashike22 在职认证  发表于 2022-5-7 15:33:05 |只看作者 |坛友微信交流群
这一结果催生了许多关于所谓记录统计的研究(参见[4]了解areview)。2单样本统计即使单样本统计在统计学中是一个广受欢迎的领域,但在投机性交易或敌友识别等竞争情况下,使用更为强大的统计数据提供了宝贵的优势。单样本非参数统计的一个问题是,对于高斯或均匀分布变量,它们不如t统计量强大。r统计量在保持稳健的同时解决了这个问题。请注意,SparreAndersen的对称分布假设与Wilcoxon signedrank统计量相同。到目前为止,R+和R-有两个参数作为统计数据:首先,它们的下限为零,因此根据它们的差异R=R设计统计测试要容易得多+- R-. 上面的数字123456-4.-2 0 2 4 6样本数数值置换累积性UM累积性UM累积性UM累积性UMPermutation+=3R-=2}R+=3R-=4}R+=2R-=4}R0=-2/3R-零点三零零五一二三四五六-4.-2 2样本编号值2 3 4 60 2 4 6 t累计总和6-4.-2 0 2 4 6样本编号值0 1 2 3 4 5 6-4.-3.-2.-1 1 2 3累计金额0 1 2 3 4 5 6-1 01 2 3 4 5 6累积总和图1:r-统计背后思想的示意图解释:计算样本值累积和的最大跳跃次数(虚线)和最小跳跃次数(虚线)之间的差异,在许多随机排列上求平均值。按照惯例,第一个点算作运行最大值和最小值的第一跳。r统计量r\'0.3005只是r/σN,其中σN\'1.97表示N=6(见等式。

使用道具

报纸
kedemingshi 在职认证  发表于 2022-5-7 15:33:08 |只看作者 |坛友微信交流群
(2)).对xnHa的记录有一个简单的解释:R+只不过是xnA不处于下降状态(即不低于其运行最大值)的时间步数。因此,数量R+-R-是在缩编中花费的时间减去在缩编中花费的时间。其次,Ris定义为整数,这可能对统计能力和效率都有害。关键的新想法是要注意,对于iiddata xn,任意{xn}随机排列的积分信号与xn一样有效。因此,我们可以计算P上的平均记录数 1随机排列,用¨R表示。图1以图形方式解释了这个想法。为了便于阅读,让我们简单地写下以下内容。通过定义,Rc的分布趋于零平均值的高斯分布。由于给定随机游动的上下记录的数量以未知的方式相互关联,因此必须暂时用数值测量¨R分布的标准偏差,用σN表示。大量的数值模拟(见附录A)表明σN=1.66(1- 0.88N-1/2)p(2)- 4/π)N,因此单样本r统计量定义为r=R1。66(1 - 0.88N-1/2)p(2)- 4/π)N.(2)渐近P(r)→ N[0,(σN)],但收敛到高斯分布相当缓慢。例如,P(R)是高斯分布,N=1000时,最大有2个标准偏差(见附录A);因此,就目前而言,为了建立一个统计量测试,我们必须借助于对P(R)的分布进行数值估计,并使用它来获得P值。计算速度很快(并且有完整的源代码)。评估单样本r统计量的功效需要分别估计θ=0和备选θ6=0的P(r),然后计算r统计量的接收机工作特性(ROC)曲线[5]。

使用道具

地板
nandehutu2022 在职认证  发表于 2022-5-7 15:33:11 |只看作者 |坛友微信交流群
附录B中报告了r-、t-、符号和Wilcoxon符号秩和统计的ROC曲线。r-统计的ROC曲线不与其他统计的ROC曲线交叉,因此曲线下面积(AUC)是ROC曲线中测量的统计功率的标量汇总(越大越好),对于比较r-统计与其他统计的功率是有意义的。让我们从高斯变量开始。在这种情况下,T统计量的作用是一致的[6],因此人们认为它的AUC是最大的。图2显示,对于高斯变量(众所周知),虽然符号和威尔科克森统计量远不如t统计量强大,但r统计量的威力与t统计量几乎相同。均匀分布的变量会导致类似的结果(相同的图)。一般来说,r统计量相对于符号统计量和Wilcoxon统计量的相对威力随着数据的尾部变重而减小。图3显示了这一点,其中报告了AUC与学生t分布的尾部参数ν(用作获取重尾数据的参数方法)的对比。对于ν\'2.5,Wilcoxon统计量变得比r统计量更强大,而。50.60.70.80.90.00 0.05 0.10 0.15 0.20 NRAUC统计学。50.60.70.80.90.00 0.05 0.10 0.15 0.20SNR曲线下面积统计图2:曲线下面积(AUC)与备选方案信噪比θ=u/σ;N=100,每点10000个样本,10000个随机排列样本。误差条设置为两个标准偏差。连续的线条仅用于视线引导。当ν<3.5时,符号统计获胜。对于指数分布变量(相同的图形),也发现了同样的行为,在这种情况下,符号统计优于R统计。r统计量的一个假设是,增量的平均值为零,但这并不能说明替代值是什么。

使用道具

7
大多数88 在职认证  发表于 2022-5-7 15:33:14 |只看作者 |坛友微信交流群
当平均增量不是零,但仍然来自其平均值周围的对称分布时,此类随机游动的平均记录数是信噪比θ=u/σ[7,8,4]的函数。因此,r统计量是对信噪比的检验。3两个样本情况建立两个样本版本的r-统计量可以通过几种方式完成。让我们用x={xn},n=1,···,Nx和y={ym},m=1,···,Ny来表示这两个样本。假设目前Nx=Ny,最简单的想法是测试样本元素的差异。如果两个样本配对,则Z={zn=xn- 例如,相同的随机排列必须应用于两个样本元素;否则,可以应用tox和y的独立置换。r的信噪比为零,因此为平均值,这相当于计算{z}的r统计量,如下所示。这是非参数定义。请注意,如果两个样本是成对的,那么另一种方法是计算每个样本的记录统计信息,然后进行比较。例如,可以使用数字0之间的差异。800.850.900.951.002.5 3.5 4.5年度统计数据0。50.60.70.80.90.00 0.05 0.10 0.15 0.20SNRUC统计量指数图3:各种类型的{xn}分布的曲线下面积(AUC)与信噪比θ=u/σ。N=100,每个点10000个样本,每个样本10000个随机排列。误差条设置为两个标准偏差。连续的线条仅用于视线引导。两个样本的上(或下)记录,即,\'R(2)+=\'R+(x)-\'R+(y)(3)\'R(2)-=\'R-(十)-\'R-(y) 。(4) 这意味着第四个统计数据,Rd=`R(2)+-\'-R(2)-.

使用道具

8
何人来此 在职认证  发表于 2022-5-7 15:33:17 |只看作者 |坛友微信交流群
考虑到与非零平均样本相关联的预期记录数是信噪比和样本值分布的函数,如果两个样本具有相同的分布和相同的信噪比,则这三个统计量的分布具有零平均,这就是它们相关的零假设。如果这三个统计数据的标准差是非参数的,那么它们将是非参数的。这不是参考文献[4]所示的情况,它给出了这个数量的依赖于分布的前置因子的一般表达式。因此,R(2)±和Rd必然是参数的。图4显示了当两个样本具有相同分布、相同长度且其中一个具有零平均值时,R(2)±和Rdstatistics的ROC曲线。所有分布的ROC曲线都有共同的特点:一般来说,R(2)+在所有测试的统计数据的大规格极限中具有最大的规格,在大灵敏度极限中具有最小的灵敏度,而R(2)-恰恰相反。Rd和Rzhave对于具有弱尾分布(高斯分布和均匀分布)的Welcstatistic具有近似相同的幂,但是worsethan Mann-Whitney不具有这种幂,因此,更倾向于Rzover Rzhave是有意义的。RGaussSpecificySensitivity 0的两个示例版本都有两个微妙之处。0.2 0.4 0.6 0.8 1.01.0 0.8 0.6 0.4 0.2 0.0世界杯+(2)R-(2) RzStudent nu=3.5特定灵敏度0。0.2 0.4 0.6 0.8 1.01.0 0.8 0.6 0.4 0.2 0.0世界杯+(2)R-(2) RZ图4:两个样本情况:四个r-统计量、Mann-Whitney U-统计量和Welch统计量的高斯分布变量(左图)和Student t-分布变量的ROC曲线,其中ν=3.5(右图)。两个样本的σ=1,其中(x)=0,E(y)=1。N=100,每个点10000个样本,每个样本10000个随机排列。

使用道具

9
何人来此 在职认证  发表于 2022-5-7 15:33:21 |只看作者 |坛友微信交流群
特异性等于1-假阳性率,敏感性等于真阳性率。1统计学:首先,当两个样本的元素数不相同时,第二个微妙之处就出现了,分别用nx和ny表示。一种解决方案是计算每个样本中min(Nx,Ny)元素排列的记录统计。由于排列的随机性,该方案确保了对较大样本的公平抽样;另一种可能性是保留较大样本的所有元素,并对较小样本进行重新采样,以获得两个长度相等的样本。4结论虽然r统计量已经有了一些直接的应用,但仍有三个重要的问题需要研究。首先,这里介绍的r统计量仅对不相关数据有效。虽然没有关于相关随机游动的记录统计的确切结果,但数值模拟指出了特定情况下的简单修正[9];对于非iid变量,r统计量是否仍然是非参数的仍有待检验。实际上,计算r-统计量的方法的一个简单修改考虑了短期相关性:应该排列数据块,而不是单一值,就像区块引导(例如[10,11,12]);块的长度可以通过自洽的方式找到[13]。第二种情况是离散分布。虽然SparreAndersen定理仅对连续变量有效,但离散增量随机游动的记录统计量类似[3]。最后,要研究非对称分布的情况,例如倾斜的作用。事实上,r统计反映的信噪比对财务来说尤其重要,因为两种资产(或交易策略)的表现传统上是用它们的夏普比来评估的,夏普比在概念上是信号噪声比。

使用道具

10
大多数88 在职认证  发表于 2022-5-7 15:33:24 |只看作者 |坛友微信交流群
通常的方法本质上相当于它们差异的Welchstatistic,使用更复杂的方法计算,如bootstraps和广义矩方法[14,13]。后者需要估计样本的一阶矩和二阶矩;其中一些需要三阶和四阶矩,这对资产价格是有问题的[14,15,16]。进一步的工作探索了r统计量作为信噪比估计器的效率[17]。最后要指出的是,具有对称增量的无偏随机行走的记录统计的普遍性延伸到两个记录之间的时间[3],但这并不能产生更强大的统计。作者感谢Gilles Fa–y的建议。完整的源代码(R和C++)可在https://github.com/damienchallet/rstatistics.A单样本RA的渐近行为。1标准偏差N=楼层(10)进行数值模拟* (1001/20)k)对于k=0,1,·20,因此N∈ [10,1000]:为高斯变量计算10个样本(每个样本有10000个随机排列)。然后一个非线性函数σN=p(2- 4/π)N[a(1- bN-c) (5)得出a=1.659±0.008,b=0.88±0.04,c=0.5±0.02(误差设置为两个标准偏差);Fit的优点在图5中显而易见。A.2收敛到高斯分布r统计量r=r/σn的分布缓慢收敛到高斯分布,如图6的qq图所示。B罗克曲线B。1一个样本图7绘制了此处调查的四种分布的ROC曲线。应该注意的是,r-统计量曲线不会与其他统计量曲线交叉。B.2两个样本图8绘制了均匀分布和指数分布的ROC曲线;高斯分布和学生t分布的结果如图所示。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-5 12:47