楼主: 大多数88
2266 73

[量化金融] 从大数据到重要信息 [推广有奖]

21
kedemingshi 在职认证  发表于 2022-5-11 04:31:27
在这种情况下,普遍性应该是直观的,因为分子过程的细节不必描述具有相似模式的个体动物之间的变化,或物种之间的变化,或模式形成时的动态,也不影响这些模式在社会和生态互动中的作用。一旦根据相关变量确定了系统行为的描述,对这些模式的任何遗传或环境影响都必须影响这些相关变量。这种行为可以从相关变量以及决定相关变量来源和价值的潜在机制的角度进行研究。这类似于描述行星运动而不描述单个行星结构细节的能力。对普适性的研究使我们能够识别系统的类别,这些系统的行为可以用同样的方式描述,并且可以被一个通用的数学模型捕获。这是通过重整化群分析形式化的普适性原则,并通过将多尺度信息理论应用于复杂系统的科学研究而得到推广。考虑这一点的一个好方法是,数学模型描述了这个类的一个成员。六、 动态敏感性和混乱当我们考虑一个系统的行为尺度时,我们还必须解决放大和耗散问题,这使得较小的尺度变化能够影响较大的尺度(放大),或者随着时间的推移,较大的尺度行为会变为较小的尺度(耗散)。在这种情况下,一个系统被研究的时间长度决定了在不同时间描述该系统大规模行为所需的细节水平。

22
能者818 在职认证  发表于 2022-5-11 04:31:30
放大率或耗散率可能与在特定尺度下描述系统所需的额外信息的程度有关,这是观测时间尺度的函数。确定性混沌(例如[1]中的第1.1节)作为气象系统中的奶油效应而普及,其中微小的初始差异随时间呈指数级发散,是一种更具体的方式,随着时间的推移缩放混合[18]。由于对系统观测的精度有限制,所以轨迹的发散经常用可预测性问题来讨论。关于初始条件的有限信息意味着,即使系统是确定性的,系统的后期状态也不是由初始时间的观测结果决定的。混沌系统具有不同程度的可预测性。行星轨道是混乱的[30],尽管有很高的可预测性。对于可预测性来说,重要的是发散率,它由卢亚波诺夫指数(Luyaponov Index)或发散发生在最大尺度上的时间尺度来衡量。对于天文馆来说,这个时间尺度是数百万年。从多尺度信息论的角度来看,放大、耗散和混沌是真实系统所必需的数学模型的各个方面。虽然有些人认为建模的目的是预测,但数学模型的目的应该理解为模型对系统的精确性。混沌系统的数学模型可以像其他模型一样构造。可预测性遇到的困难不是数学表示的问题。预测的局限性是系统行为固有的。目标是获得可能的最佳理解,认识到固有的不确定性是至关重要的。

23
mingdashike22 在职认证  发表于 2022-5-11 04:31:33
获得最佳理解的能力不应与完全可预测性相混淆。(更微妙的是,确定性混沌的解析表示总结了一组描述系统的实数参数。然而,如图3所示,复杂性文件通常意味着在更高的尺度上有更多的自由度,因此混沌行为的标准模型不扩展到系统的更高尺度描述。远高于量子极限,因此ch混沌不适用,可能需要其他模型。)将复杂性应用于生物和社会系统带来了与放大(与混沌无关)相关的挑战,这一点很重要。考虑生物学中微观与宏观的联系。β-珠蛋白基因的单一基因突变,在第6位(或包括起始密码子在内的第7位)用缬氨酸替代谷氨酸,会导致血红蛋白分子异常。一个个体中的一个这样的突变会导致镰状细胞特征,从而提供对疟疾的抗性,而两个这样的突变会导致镰状细胞疾病。考虑社会中微观到宏观的联系。一个人的一面和影响可能会产生巨大的影响,例如史蒂夫乔布斯在从个人电脑到iPhone的现代设备开发中的作用,改变了数亿人的工作和娱乐方式。随着时间的推移,一个有机体或一个社会在生理学上的这些巨大差异似乎使生物和社会系统与物理系统有所不同,尽管对小规模事件的相似敏感性会影响物理系统。重要的是,小规模信息对大规模行为的影响程度及其发生的条件是有限的。

24
可人4 在职认证  发表于 2022-5-11 04:31:36
理解这些条件和可能影响的细节对于科学理解至关重要。突变和想法的大规模影响来自于随着时间的推移通过信息复制进行放大的可能性,这使它们能够实现大规模。生物突变会产生巨大的影响,因为DNA会在整个身体细胞和人群中复制,并通过随后将其信息转录到许多以特定方式发挥功能的蛋白质中。社会系统在向他人传播特定思想时对其具有敏感性,具体体现在大规模生产和广泛传播这些思想的机器和组织过程中。这在很多方面都与气象系统的黄油效应相似。放大的条件要求在加热的海洋中有一个可用的能源,并且它能够驱动飓风的高冗余大尺度运动。这些过程并不违背信息重要性的框架。然而,由于我们需要了解信息随着时间的推移被复制的方式,它们确实使其应用更具挑战性。对微观信息的敏感性并不意味着所有微观信息都可以或将最终成为大规模系统行为。并非所有的分子变化或基因突变都会产生大规模影响。能改变整个社会的思想和个人,与现存的许多思想和个人相比是罕见的。随着时间的推移,大规模行为对小规模事件的影响是否敏感,以及在多大程度上敏感,小规模事件在复制时可能会产生越来越大的影响,这是复杂系统行为中信息规模分析的一部分。在每一种情况下,识别大规模信息对于分析和我们最终理解系统是至关重要的。

25
大多数88 在职认证  发表于 2022-5-11 04:31:39
必须关注大规模行为,因为在原子尺度上绘制所有精细尺度的细节最终都不可能有效。此外,只有了解哪些微观信息才是真正影响大规模行为的信息,才能深入了解系统的行为。七、复杂系统:例如,多尺度信息方法的目标是正确地表示系统的最大尺度行为,忽略微观细节,这些细节对于回答特定问题并不重要,而可靠的表示往往是不切实际的。代表最大规模的行为意味着确定一组可能的状态,以及它们的动力学和外力的影响。复杂度文件提供了所需状态数量的测量,但具体方法可能会在有或没有其帮助的情况下识别正确的模型。由于普遍性,以前在物理系统描述中发现的宏观行为类别也可能适用于生物和社会系统。普适性类分析为特定系统或问题域的表征提供了短信息。本节中的示例主要利用了以前获得的普遍性类和见解。将这些方法推广到更完整的社会挑战和健康干预措施将需要更大的努力。此处提供的示例仅为流程的第一步。在复杂生物和社会系统的研究中,一种被广泛采用的多尺度策略是在经验数据中识别幂律标度行为。在经济时间序列、DNA序列相关性、心跳间隔、网络连通性、生理学和城市属性等广泛主题中都进行了研究[19–25]。

26
mingdashike22 在职认证  发表于 2022-5-11 04:31:42
由于幂律具有尺度不变性,因此可以识别此类多尺度行为,并为其开发模型,而无需参考重整化方法的大部分框架。在相变研究中,空间均匀性的分解,即平滑度和作为数学近似值的平均化,是一种可以预见的洞见,无论在何处使用统计平均来描述系统的行为。我们可以认为平均值不是一种失败的方法,而是一种近似值,它可能有效,也可能无效,即使它不是严格有效的,也可能有用。这种近似通常被称为“平均场”近似。原因是系统的局部行为是对作用于其上的力的反应,称为局部“场”如果我们有一个模型,该模型使用的是穿过材料的局部场地的平均值,而不是所有地方的实际场地,那么模型中不仅场地,而且局部行为都是相同的。这成为系统大规模行为的近似值。事实上,这种近似的分解是在传统统计工具中可以描述的系统和那些需要复杂系统方法的系统之间的一个有用的标志,即系统中的依赖性导致多尺度行为。因此,我们可以预期,在生物和社会系统中,许多情况下,“平均场”近似值的分解提供了新的见解。我们给出的第一个例子是生物学进化理论的数学分析,涉及生物多样性、利他主义、物种形成和寿命。更具体的例子是在社会系统中的应用,即种族暴力、全球食品价格、恐慌和组织效能。A.进化动力学统计学是结合费舍尔的新达尔文主义进化观发展起来的[31]。

27
何人来此 在职认证  发表于 2022-5-11 04:31:45
在20世纪20年代,统计学是一种强有力的新方法,用来描述亲本基因组如何结合成为o off spring(孟德尔遗传)的基因组。在他所使用的方法中,每个春天都被视为所有可能的父母组合的一个实例。他开发的数学在分析遗传和性状进化(即群体生物学)方面继续发挥着核心作用。然而,他所使用的统计方法是一种近似方法,其重要性仍未得到广泛理解。人口生物学中的这种统计分析可以直接映射到物理学相变研究中发现的数学问题上。进化动力学分析的不同之处在于,存在一个动力学方程,而不是物质的平衡描述。在每种情况下,数学都从系统状态概率的描述开始,这与部件的状态有关。就像一种物质的区域可以处于不同的状态,例如,{液体,气体},一个群体中的生物体可以有不同的可能基因组,即一组等位基因。整个种群是单个有机体的组合,是基因的组合,每个有机体都有自己的状态(几个等位基因中的一个)。Fisher假设一个基因可以独立于该组织和其他基因组的其他等位基因的特定状态分配一个等位基因。一个微妙的点是,它并不独立于同一有机体和其他有机体的其他基因的基因组状态集(也就是说,群体中存在哪些染色体,这基本上与在随机样本中遇到它们的概率相同)。一个基因的状态独立于其他基因或基因组的特定状态。

28
何人来此 在职认证  发表于 2022-5-11 04:31:49
从数学上讲,所有生物体基因组的概率可以写成单个生物体,甚至单个基因状态概率的乘积。这是一种使尺度分离“平均场”近似的一般方法,即P({si})=∏ip(si),其中P({si})是系统整体状态(材料或所有生物体的基因组)的概率,P(si)是单个组分(材料的小面积或单个基因)达到特定状态的概率。这表明相关性是近似的:一个组件的特定状态不影响另一个组件的状态,只有单个组件的状态影响其他组件的概率。这是一个微妙但本质的数学区别。为了让讨论更容易理解,我们将使用道金斯在《鱼类基因》一书中使用的“赛艇人类比”来解释统计近似值及其分解。在赛艇运动员的类比中,我们考虑的是划艇运动员队伍之间的比赛。赛艇运动员类似于基因,而船类似于有机体。有一个划船工具,划船者被放在船上,所有的船都有相同数量的划船者。赛艇相互比赛,获胜者被放回划艇池再次比赛。为了弥补失利者的损失,使我们总是拥有相同数量的赛艇运动员,赛艇运动员进行复制,也就是说,成功的赛艇运动员数量增加,同时保持相同的素质。道金斯描述的一个例子是说英语和说德语的赛艇运动员之间的比赛。语言对比赛有影响,因为一种语言的划船者有一个优势,他们可以相互理解并获胜。

29
大多数88 在职认证  发表于 2022-5-11 04:31:52
随着时间的推移,rowerpool会发生什么?如果有更多说英语的划船者,那么一艘船上所有的划船者都是英语划船者的可能性就更大。此外,说德语的划手往往会有说英语的伙伴。这意味着说英语的划手比说德语的划手更容易赢得比赛。随着时间的推移,会说英语的赛艇运动员的数量将会增加,而会说德语的赛艇运动员的数量将会减少。最终会有一个会说英语的划船池。或者,如果我们开始使用一个有更多德语说话者的划艇池,随着时间的推移,讲德语的划艇者的数量将会增加,最终我们将拥有一个全德语的划艇池。在任何一种情况下,我们都可以把这看作是赛艇运动员之间的竞争,随着时间的推移,一种类型的力量会战胜另一种类型的力量。道金斯的观点似乎是合理的,但一个希德假设会产生出人意料的深远影响。这一假设隐藏在赛艇运动员如何进入和离开赛艇池中。他认为这是随机进行的。如果我们不这么做会怎么样?例如,考虑一下,如果我们有一个划手池作为一排划手,会发生什么。我们把赛艇手从队伍前面带出来,放到船上,然后把获胜的赛艇手放回队伍后面的赛艇池。动态将是非常不同的。在赛艇运动员队伍中的某个地方,赛艇运动员往往会变成同一类型的人,说英语或德语。然而,所发现的类型可能在划船池线的一部分与另一部分有所不同。出现的补丁导致人口的多尺度结构!贴片的存在使得这一过程与混合赛艇池不同。

30
kedemingshi 在职认证  发表于 2022-5-11 04:31:56
此外,在描述系统时,仅仅认识到这些是斑块是不够的,还不足以认识到这些斑块因其边界的移动而不断变化。系统的动力学描述包括这些斑块的多尺度动力学。这一过程的一个不同之处是,讲英语和德语的人都会坚持很长时间。它们中的一个或另一个最终可能会消失,但如果我们有一条赛艇线作为划艇池,而不是每次都把它们混在一起,这将需要更多代人才能实现。有趣的是,这可能也是英国人和德国人说话的原因。如果世界上每个人都经常混在一起,那么只有一种语言是有意义的,但是如果说德语的人生活在世界的一个地方,说英语的人生活在世界的另一个地方,那么就有可能有多种语言,其中一些地区说英语,一些地区说德语。有道理的是,今天,当人们比过去更频繁地搬家时,会比人们不经常搬家时更倾向于说一种语言。随机抽签和不随机抽签之间的区别可以从划船者在船上的概率分布来理解。随机取它们意味着特定划手的可能性由划手池中划手类型的概率给出,与该船或其他船中的其他划手类型无关。这正是平均场近似值。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 14:29