楼主: 时光永痕
557 0

[数据挖掘新闻] 随机过程和随机性的新检验-在冷却数论问题中的应用 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)五级

87%

威望
0
论坛币
26 个
通用积分
57.2086
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34190 点
帖子
2733
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
随机过程和随机性的新检验-在冷却数论问题中的应用
本文适用于不一定是统计学家或精通统计的从业人员。数学水平保持尽可能简单,但我提出了一种原始的简单方法来测试随机性,并用一个有趣的应用程序来说明该方法。这些材料不是教科书或课堂上通常讨论的内容(即使是统计学生),也没有提供新鲜的视角和开箱即用的工具,这些工具可在许多情况下用作对广泛使用的传统测试的补充或替代用过的。本文是作为教程编写的,但在最后一部分中,它还提供了有趣的研究成果。
1.背景
让我们假设您正在处理一个具有离散时间增量(例如每日观察)的时间序列,而不是一个时间连续的过程。这里的方法是将时间连续过程中使用的技术应用到时间离散过程中,并使之适应。更具体地说(对于那些熟悉随机过程的人),我们在这里处理离散的泊松过程。我们要回答的主要问题是:有些事件是随机发生的,还是有一种机制使事件不是随机发生的?同一类型的两个连续事件之间的间隙分布是多少?
在时间连续设置(泊松过程)中,所讨论的分布是通过指数分布建模的。在这里研究的离散案例中,离散泊松过程变成了一个马尔可夫链,我们正在处理几何分布,而不是指数分布。让我们用一个例子来说明。

相信平方根为2的数字(SQRT(2))好像是随机发生的那样分布。根据观察,10位数字0、1,...,9的每一个出现的频率为10%,并且在SQRT(2)的十进制扩展中的任何位置,平均而言,下一位数字似乎都不依赖于前一个数字的值(简而言之,它的值是不可预测的。)在此上下文中,一个事件被定义为例如一个数字等于(例如)3。下一个事件是我们第一次发现下一个事件位数也等于3。两次出现相同位数之间的间隔(或经过的时间)是我们感兴趣的主要指标,用G表示。如果数字像随机数一样分布,则间隙G的分布 在相同数字的两次出现之间,将是几何的,即
与p在这种情况下= 1/10,因为每个的10个数字(0,1,...,9)似乎-基于观察-具有10%的频率。我们将证明确实是这样:换句话说,在我们的示例中,基于对SQRT的前一千万个数字的分析,间隙G非常好地通过参数p = 1/10的几何分布来近似。2)。   
我还应该寻找什么,以及如何进行?
研究差距的分布可以揭示标准测试可能无法捕获的模式。另一个值得研究的统计数据是最大差距,请参见本文。有时将其称为极端事件/离群值分析。另外,在我们上面的示例中,研究数字组之间的间隔(不仅是单个数字,而且例如,“单词” 234567在数字序列中重复出现的频率以及该单词的间隔分布是什么)。由6位数字组成的任何单词,p= 1 / 1
2.方法论
第一步是估计与模型关联的概率 p,即特定事件的概率在任何时间发生。可以很容易地从您的数据集中估计它,并且通常,每种事件类型都有不同的p值。然后,您需要使用一种算法来计算同一事件的两次连续出现之间的间隙的经验(观察到)分布。在我们的示例中,我们有10种事件,每种事件都与SQRT(2)的十进制表示形式中的10位数字0、1,...,9之一发生有关。间隙计算可以如下有效地执行:
计算观察到的间隙分布的算法
循环访问所有观察值(在我们的示例中,是存储在文件中的SQRT(2)的前10个十万位数字;这1000万个数字中的每一个都是一个观察值)。在循环内,在每次迭代t,执行:
令 E 为在迭代t出现在数据集中的事件。例如,在我们的案例中出现了(例如)数字3。检索存储在数组中的最后一次出现,例如LastOccurrences [ E ]
计算间隙G,因为G = t  -LastOccurrences [ E ]
如下更新LastOccurrences表:LastOccurrences [ E ] = t
如下更新间隙分布表,表示为GapTable(一个二维数组或更佳的哈希表):GapTable [ E,G ] ++
完成循环后,所需的所有信息都存储在GapTable摘要表中。
统计测试
如果某些事件是随机发生的,则对于这些事件,间隙的理论分布被认为是几何的,请参见第一部分中的上述公式。因此,您必须测试(使用上述算法计算出的)经验间隙分布是否与参数p的理论几何分布在统计上不同 (请记住,每种类型的事件可能具有不同的p。)如果在统计上没有不同,则假设应该放弃随机性:您已经找到了一些模式。这项工作通常使用Kolmogorov-Smirnov检验完成。如果您不是统计学家,而是BI分析师或工程师,则可以使用其他技术代替,并在最后一部分中进行说明:
您可以模拟完全随机分布的事件,并将模拟中获得的间隙分布与观察值计算出的间隙分布进行比较。请参阅此处的操作方法,尤其是最后一条评论,其中提供了一种有效的方法。这种蒙特卡洛模拟方法将吸引运筹学分析人员。
在Excel中,绘制根据观察值计算的间隙分布(每种事件类型一个),添加一条趋势线,还可以选择显示趋势线方程式及其R平方。在Excel中选择趋势线(模型拟合)时,必须选择指数线。这就是我们所做的(请参阅下一部分),而且好消息是,尽管Excel提供的模型选择非常有限,但Exponential是其中之一。实际上,您可以在Excel中测试其他趋势线(多项式,线性,幂或对数),并且您会发现,到目前为止,指数是最合适的-如果您的事件确实是随机分布的。
进一步的建议
如果您收集了大量观测值(例如1000万个),则可以对大小不断增加的样本(1
即使使用大数据,如果您要测试大量的稀有事件(在我们的案例中,大量的大“单词”,例如出现234567,而不是SQRT(2)的十进制表示形式中的单个数字),也可能会导致很多测试假阴性(无法检测出真正的随机性。)您甚至可以假设所有事件都完全随机分布,甚至可以计算出发生这种情况的可能性。这就是大数据的诅咒。
3.在数论问题中的应用
在这里,我们将进一步讨论本文中使用的示例来说明概念。人们认为数学常数(实际上是所有数字中的绝大多数)的数字分布就好像它们是随机生成的一样,有关详细信息,请参见此处。
已经对许多众所周知的常数执行了许多测试(请参阅此处),但没有一个能够识别出随机性的任何偏离。此处说明的差距测试鲜为人知,并且当应用于SQRT(2)时,它也无法找到与随机性的偏离。实际上,如下图所示,具有随机分布的拟合几乎是完美的。
有一个简单的公式可以单独计算SQRT(2)的任何数字,请参见此处,但这并不实用。取而代之的是,我们使用了NASA在此处发布的一千万个数字的表格。消息人士称,前500万位以上的数字尚未经过仔细检查,因此我们仅使用了前500万位。差距汇总表,方法学细节和上图可以在我的电子表格中找到。您可以在此处下载。
上图显示了在SQRT(2)的前五百万个小数位中连续出现相同位数的间隙之间的间隙长度分布(在10位数字0、1,...,9上平均)之间的完美拟合,以及几何分布模型,使用Excel中的指数趋势线。
我还研究了NASA表中的最后200万个十进制小数,尽管没有对它们进行仔细检查,但它们也显示出完全相同的随机行为。也许这些十进制都是错误的,但是生成它们的机制保留了随机性,或者所有或大多数都是正确的。
一个反例
被证明是Champernowne常数的数字0.123456789101112131415161718192021( 通过将自然数的十进制表示顺序进行连接而 获得)已被证明是“随机”的,因为没有数字或一组数字出现比任何其他。这样的数字称为普通数。 但是,该方法在间隙测试中失败了,间隙的极限分布(甚至存在)与几何分布完全不同。我对前8、30、50、100和4亿小数进行了测试,作为练习,您也可以尝试。所有测试均失败。
具有讽刺意味的是,没有人知道SQRT(2)是否为正数,但它通过了差距测试却非常出色。也许对“随机”数的更好定义(而不是正常的)是将几何分布作为间隙的极限分布的数字。您是否可以创建通过此测试但显示出强烈的非随机模式的人工数字?是否可以构造通过差距测试的非正态数?
密码学中的潜在用途
潜在的应用是在文档中使用似乎随机生成的数字(如白噪声,SQRT(2)的数字似乎符合要求),仅在收件人可以重构的随机位置使用,也许是三到四个在加密原始文档之前,原始文档中每个真实字符的平均位数为位数,以提高安全性-有点像隐写术。第二次对同一文档进行编码会导致将不同类型的白噪声添加到原始文档中,并以不同的强度,不同的强度,并且每次都在不同的位置随机添加胡椒。这会使黑客的任务更加复杂。
4。结论
最后,这是一个直觉可能是错误的示例,以及为什么需要数据科学。在SQRT(2)的数字中,当查看前几千个数字时(请参见下图),在我看来,它看起来像是随机的。根据我的直觉和肉眼检查,有太多的99个,另外有37个(除其他外)(您可以称之为直觉)。事实证明我错了。查看下面的前几千个数字,您的直觉很可能会误导您以为存在某些模式。可以用以下事实来解释这一点:诸如99之类的模式很容易被人的大脑检测到并在视觉上脱颖而出,但是在这种情况下,如果使用分析工具来分析数字,它们的确会以正确的频率出现。  
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:随机过程 随机性 Exponential Occurrence kolmogorov

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-20 05:25