多叉进化树构建方法的研究与实现
分子系统发育分析是生物信息学中的重要研究领域,它的主要研究手段是从一组同源的DNA或蛋白质序列出发,计算各个序列之间的进化距离,从而得到反映物种进化关系的进化树。进化树通常是一棵二叉树:树的叶结点,代表了某个具体序列;树的拓扑结构表现了各物种之间的亲缘关系远近;树的分枝长度刻画了进化距离的大小。
构建进化树的方法主要分为三类,即距离矩阵法、最简约方法和极大似然法。其中,距离矩阵法以结构简单、具有良好的理论基础等特点获得了广泛的应用。
但是,研究指出一些基于距离矩阵的建树方法在某些情况下会产生拓扑结构不惟一的进化树结果,即进化树的具体拓扑结构会根据同源序列输入算法的顺序不同而发生变化。不加权算术平均组对法(Unweighted Pair-Group Method using Arithmetic averages,以下简称UPGMA)是一种比较常见的距离矩阵法,该方法也存在上述问题。
虽然该方法被设计为针对同一组序列数据产生惟一的进化树结果,但是可以证明在算法迭代过程中,如果距离矩阵中出现最小元素不惟一的情况,则算法产生的进化树拓扑结构是随着序列输入顺序的 ...


雷达卡




京公网安备 11010802022788号







