序列复杂度方法在DNA调控元件预测中的应用研究
人类基因组计划发现,人类基因组中超过98%的区域是非编码区域。ENCODE、Roadmap epigenomics等后续计划进一步发现,非编码DNA中包含如DNA甲基化位点、启动子、增强子等众多DNA调控元件。
DNA调控元件通过激活或抑制转录事件,精准地调控目标基因的表达量。一方面,这些DNA调控元件正是由于其环境序列的特异性才能够参与转录调控;另一方面,DNA序列在数学上可被视为有限字母表上的有限词,研究其复杂度特征可以挖掘DNA的序列特异性。
这激发我们通过序列复杂度数学工具来量化识别DNA调控元件。本研究分为以下三部分:第一部分,我们详细描述两种序列复杂度的数学定义,重点研究其计算算法,并通过特征选择筛选出有效特征。
首先根据不同序列长度确定因子复杂度的算法获取原始特征,随后根据二阶差分工具筛选拓扑熵特征,并最终确定因子复杂度的有效特征。同时,我们研究了abelian复杂度的数学定义和计算算法,并通过对abelian复杂度特征进行特征筛选确定出其有效特征。
第二部分,我们应用因子复杂度有效特征构建Cp G甲基化水平预测模型。我们首 ...


雷达卡


京公网安备 11010802022788号







