发帖

楼主: 时光永痕

1217 0

[数据挖掘新闻] 散度指数：序数分类变量的新极化度量 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）八级

18%

0%

威望: 0 级
论坛币: 26 个
通用积分: 57.2238
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34180 点
帖子: 2732
精华: 0
在线时间: 321 小时
注册时间: 2020-7-21
最后登录: 2024-8-1

楼主

时光永痕

发表于 2020-9-25 20:38:48 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

散度指数：序数分类变量的新极化度量
我n中的统计文献中，序类型的数据，是已知的大量的指标来衡量的程度极化现象。通常，许多广泛使用的分布变异性度量被定义为参考点的函数，在某些“感觉”上，可以将其视为代表整个人群的指标。此功能指示所有值与被认为“典型”的点有多少不同。
在所有可变性度量中，方差是一个以平均值为参考点的众所周知的示例。但是，基于均值的量度取决于应用于类别的量表（Allison＆Foster，2004年），并且对异常值高度敏感。另一种方法是比较序数变量的分布与最大分散的分布，即两点极端分布（即，一半人口集中在最低类别中，一半人口集中在最高类别中的分布）。使用这种方法，对于有序分类数据变化的三项措施已经提出，该变量线性顺序 - LOV（贝瑞＆米尔克，1992）中，变异的索引顺序 - IOV （LEIK，1966年）和COV （Kvalseth，标称变化系数与序catego ...）。所有这些指数都基于累积相对频率分布（CDF），因为它包含任何序数变量的所有分布信息（Blair＆Lacy，1996）。因此，这些措施都不依赖于有关类别之间距离的顺序假设。
在这一点上，读者可能想知道这种色散方法是否足以定义偏振测量的功能形式。“ 为什么不将观察到的分布的离差测量为距最小离差点的距离？”。Blair和Lacy在《序数变异统计》（Blair＆Lacy，2000）中已经解决了这个问题。他们认为这种方法是不切实际的，因为单点分布与类别数一样多。因此，不清楚应该从哪一个计算距离。
然后，还有另一种方法可以比较不依赖于其位置的分布的离散度吗？累积频率矢量的空间是表示所有可能分布的唯一方法吗？
为了解决这一挑战，我提出了一种概率度量的新表示形式，即双边累积分布函数（BCDF），它是从CDF的概括中得出的。基本上，它是扩展的CDF，可以通过折叠其上部（通常称为生存功能或互补CDF）轻松获得。与CDF不同，此函数具有独立于概率分布（pdf）的有限常数区域，因此对于任何分布比较而言都更为方便。有关BCDF的定义，属性和计算，请参阅附录A3：（Pinzari等，2019年全年）
在此基础上，为了捕获均值周围的波动量以及中位数附近的局部变化，我们通过其BCDF自相关函数（BCDFA）完全定义了概率分布的形状。BCDFA是一个对称函数，其MAD（中值绝对偏差）为最大值，并保留了pdf的方差。因此，当质量概率均匀地集中在分布的端点时，就会出现BCDFA拉伸的最大程度。在这种配置中，任何有界概率分布的方差最大（Bathia＆Chander，2000年）。另一方面，当所有值都属于一个类别时，将获得最低支持。这种表示的主要优点是它对分布的位置不变，因此仅对分布形状敏感。例如，任何单例分布将具有相同的BCDFA曲线。同样，具有相同形状但均值和中位数不同的分布可以用唯一曲线表示。
例如，上图显示了在十个类别中的两点分布族的BCDFA 。曲线tau_0代表在两个连续类别上均匀分布的九种分布（左下角的直方图说明了该双峰分布类别的成员）。另一方面，曲线tau_8代表两点极限分布。最后是红色和浅蓝色曲线分别表示单例和均匀分布。通过这种方式，要量化pdf和单例分布之间的距离，只需选择一个适当的度量标准，该度量将为更大的值分配比单例更大的BCDFA分布。有关BCDFA的定义和计算，请参见附录A3。
选择一种用于比较概率分布的度量标准并不是一件容易的事，通常取决于目标。在这项工作中，我建议使用詹森-香农散度（Lin，1991）。由于其定义基于BCDFA，而不是密度函数或CDF，因此比方差，COV，IOV和LOV更规则。另外，与其他色散指数不同，该度量不需要进行归一化，因为它是单位间隔中的有界值。该度量标准的另一个关键特征是它是无限可微的，并且其导数比任何功率度量标准都在缓慢下降。具有此特征的函数称为调节分布或双重Schwartz函数（Stein＆Shakarchi，2003 p.134）。显然，还有其他功能属于该功能空间（Taneja，2001年）（Jenssen，Principe和Erologmus，2006年）。然而，JSD是一个众所周知的分歧，其平方根是一个度量（Endres＆Schindelin，2003）。最后的属性将使我们能够增加或减小分歧的程度。在不失一般性的前提下，我称这类函数为Divergence Index（DI）。
1

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：分类变量 DIVERGENCE SHAKARCHI Schwartz Principe

[数据挖掘新闻] 散度指数：序数分类变量的新极化度量 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘新闻] 散度指数：序数分类变量的新极化度量 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群