楼主: kedemingshi
213 0

[定量生物学] 信息论与所有离散系统的长度分布 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

79%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
86.7199
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24962 点
帖子
4219
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-3-8 18:56:20 来自手机 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
我们从一个非凡的观察开始,即UniProt(通用蛋白质资源)中8000万个蛋白质的长度分布,以氨基酸为单位测量,在所有尺度上,与以编程语言标记为单位测量的大量计算机功能的长度分布在质量上是相同的。两个如此不同的离散系统共享重要的结构性质,这表明其他显然不相关的离散系统也可能共享相同的性质,并肯定需要一个解释。我们证明了这对于所有由标记或符号构建的组件的离散系统是不可避免的。在经典统计力学框架中嵌入Hartley-Shannon信息守恒的基础上,我们将离散系统分为异质和齐质两类。异构系统包含由唯一的符号字母表构建的组件,并产生一个隐式CoHSI分布,该分布具有一个尖锐的单峰渐近到幂律。同构系统包含组件,每个组件仅由该组件特有的一种令牌构建,并产生对应于Zipf定律的CoHSI分布。该理论应用于异质系统,(蛋白质组、计算机软件、音乐);同质系统(语言文本、要素丰富);以及异质和同质行为并存的系统(语言文本中的词频和词长频率)。在每一种情况下,理论的预测都得到了检验,并得到了高度统计意义的支持。我们还证明了在同一异构系统中,不同但一致的字母表必须以幂律相关联。我们通过在唯一音符字母表的定义中排除并包括音符持续时间来证明这一点。
---
英文标题:
《Information Theory and the Length Distribution of all Discrete Systems》
---
作者:
Les Hatton, Gregory Warr
---
最新提交年份:
2017
---
分类信息:

一级分类:Quantitative Biology        数量生物学
二级分类:Other Quantitative Biology        其他定量生物学
分类描述:Work in quantitative biology that does not fit into the other q-bio classifications
不适合其他q-bio分类的定量生物学工作
--
一级分类:Computer Science        计算机科学
二级分类:Information Theory        信息论
分类描述:Covers theoretical and experimental aspects of information theory and coding. Includes material in ACM Subject Class E.4 and intersects with H.1.1.
涵盖信息论和编码的理论和实验方面。包括ACM学科类E.4中的材料,并与H.1.1有交集。
--
一级分类:Mathematics        数学
二级分类:Information Theory        信息论
分类描述:math.IT is an alias for cs.IT. Covers theoretical and experimental aspects of information theory and coding.
它是cs.it的别名。涵盖信息论和编码的理论和实验方面。
--
一级分类:Physics        物理学
二级分类:Biological Physics        生物物理学
分类描述:Molecular biophysics, cellular biophysics, neurological biophysics, membrane biophysics, single-molecule biophysics, ecological biophysics, quantum phenomena in biological systems (quantum biophysics), theoretical biophysics, molecular dynamics/modeling and simulation, game theory, biomechanics, bioinformatics, microorganisms, virology, evolution, biophysical methods.
分子生物物理、细胞生物物理、神经生物物理、膜生物物理、单分子生物物理、生态生物物理、生物系统中的量子现象(量子生物物理)、理论生物物理、分子动力学/建模与模拟、博弈论、生物力学、生物信息学、微生物、病毒学、进化论、生物物理方法。
--
一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--
一级分类:Quantitative Biology        数量生物学
二级分类:Populations and Evolution        种群与进化
分类描述:Population dynamics, spatio-temporal and epidemiological models, dynamic speciation, co-evolution, biodiversity, foodwebs, aging; molecular evolution and phylogeny; directed evolution; origin of life
种群动力学;时空和流行病学模型;动态物种形成;协同进化;生物多样性;食物网;老龄化;分子进化和系统发育;定向进化;生命起源
--

---
英文摘要:
  We begin with the extraordinary observation that the length distribution of 80 million proteins in UniProt, the Universal Protein Resource, measured in amino acids, is qualitatively identical to the length distribution of large collections of computer functions measured in programming language tokens, at all scales. That two such disparate discrete systems share important structural properties suggests that yet other apparently unrelated discrete systems might share the same properties, and certainly invites an explanation.   We demonstrate that this is inevitable for all discrete systems of components built from tokens or symbols. Departing from existing work by embedding the Conservation of Hartley-Shannon information (CoHSI) in a classical statistical mechanics framework, we identify two kinds of discrete system, heterogeneous and homogeneous. Heterogeneous systems contain components built from a unique alphabet of tokens and yield an implicit CoHSI distribution with a sharp unimodal peak asymptoting to a power-law. Homogeneous systems contain components each built from just one kind of token unique to that component and yield a CoHSI distribution corresponding to Zipf's law.   This theory is applied to heterogeneous systems, (proteome, computer software, music); homogeneous systems (language texts, abundance of the elements); and to systems in which both heterogeneous and homogeneous behaviour co-exist (word frequencies and word length frequencies in language texts). In each case, the predictions of the theory are tested and supported to high levels of statistical significance. We also show that in the same heterogeneous system, different but consistent alphabets must be related by a power-law. We demonstrate this on a large body of music by excluding and including note duration in the definition of the unique alphabet of notes.
---
PDF链接:
https://arxiv.org/pdf/1709.01712
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:信息论 Quantitative distribution Experimental Conservation 信息 测量 同质 systems 得到

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-10-6 19:01