请选择 进入手机版 | 继续访问电脑版
楼主: 时光永痕
853 0

[数据挖掘新闻] 散度指数:序数分类变量的新极化度量 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

15%

威望
0
论坛币
26 个
通用积分
49.7565
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
315 小时
注册时间
2020-7-21
最后登录
2024-4-15

时光永痕 学生认证  发表于 2020-9-25 20:38:48 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
散度指数:序数分类变量的新极化度量
我n中的统计文献中,序类型的数据,是已知的大量的指标来衡量的程度极化现象。通常,许多广泛使用的分布变异性度量被定义为参考点的函数,在某些“感觉”上,可以将其视为代表整个人群的指标。此功能指示所有值与被认为“典型”的点有多少不同。
在所有可变性度量中,方差是一个以平均值为参考点的众所周知的示例。但是,基于均值的量度取决于应用于类别的量表(Allison&Foster,2004年),并且对异常值高度敏感。另一种方法是比较序数变量的分布与最大分散的分布,即两点极端分布(即,一半人口集中在最低类别中,一半人口集中在最高类别中的分布) 。使用这种方法,对于有序分类数据变化的三项措施已经提出,该变量线性顺序 - LOV(贝瑞&米尔克,1992)中,变异的索引顺序 - IOV  (LEIK,1966年)和COV  (Kvalseth,标称变化系数与序catego ...)。所有这些指数都基于累积相对频率分布(CDF),因为它包含任何序数变量的所有分布信息(Blair&Lacy,1996)。因此,这些措施都不依赖于有关类别之间距离的顺序假设。
在这一点上,读者可能想知道这种色散方法是否足以定义偏振测量的功能形式。“ 为什么不将观察到的分布的离差测量为距最小离差点的距离?”。Blair和Lacy在《序数变异统计》(Blair&Lacy,2000)中已经解决了这个问题。他们认为这种方法是不切实际的,因为单点分布与类别数一样多。因此,不清楚应该从哪一个计算距离。
然后,还有另一种方法可以比较不依赖于其位置的分布的离散度吗?累积频率矢量的空间是表示所有可能分布的唯一方法吗?
为了解决这一挑战,我提出了一种概率度量的新表示形式,即双边累积分布函数(BCDF),它是从CDF的概括中得出的。基本上,它是扩展的CDF,可以通过折叠其上部(通常称为生存功能或互补CDF)轻松获得。与CDF不同,此函数具有独立于概率分布(pdf)的有限常数区域,因此对于任何分布比较而言都更为方便。有关BCDF的定义,属性和计算,请参阅附录A3:(Pinzari等,2019年全年)
在此基础上,为了捕获均值周围的波动量以及中位数附近的局部变化,我们通过其BCDF自相关函数(BCDFA)完全定义了概率分布的形状。BCDFA是一个对称函数,其MAD(中值绝对偏差)为最大值,并保留了pdf的方差。因此,当质量概率均匀地集中在分布的端点时,就会出现BCDFA拉伸的最大程度。在这种配置中,任何有界概率分布的方差最大(Bathia&Chander,2000年)。另一方面,当所有值都属于一个类别时,将获得最低支持。这种表示的主要优点是它对分布的位置不变,因此仅对分布形状敏感。例如,任何单例分布将具有相同的BCDFA曲线。同样,具有相同形状但均值和中位数不同的分布可以用唯一曲线表示。
例如,上图显示了在十个类别中的两点分布族的BCDFA 。曲线tau_0代表在两个连续类别上均匀分布的九种分布(左下角的直方图说明了该双峰分布类别的成员)。另一方面,曲线tau_8代表两点极限分布。最后是红色和浅蓝色曲线分别表示单例和均匀分布。通过这种方式,要量化pdf和单例分布之间的距离,只需选择一个适当的度量标准,该度量将为更大的值分配比单例更大的BCDFA分布。有关BCDFA的定义和计算,请参见附录A3。
选择一种用于比较概率分布的度量标准并不是一件容易的事,通常取决于目标。在这项工作中,我建议使用詹森-香农散度(Lin,1991)。由于其定义基于BCDFA,而不是密度函数或CDF,因此比方差,COV,IOV和LOV更规则。另外,与其他色散指数不同,该度量不需要进行归一化,因为它是单位间隔中的有界值。该度量标准的另一个关键特征是它是无限可微的,并且其导数比任何功率度量标准都在缓慢下降。具有此特征的函数称为调节分布或双重Schwartz函数(Stein&Shakarchi,2003 p.134)。显然,还有其他功能属于该功能空间(Taneja,2001年)(Jenssen,Principe和Erologmus,2006年)。然而,JSD是一个众所周知的分歧,其平方根是一个度量(Endres&Schindelin,2003)。最后的属性将使我们能够增加或减小分歧的程度。在不失一般性的前提下,我称这类函数为Divergence Index(DI)。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:分类变量 DIVERGENCE SHAKARCHI Schwartz Principe

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-17 02:07