楼主: 何人来此
1066 12

[计算机科学] 一种自适应的G蛋白偶联分类策略 受体 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-4-15 10:03:31 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
计算生物学中的一个主要问题是现有的分类模型无法融入不断扩展的新领域知识。本文通过引入生物信息学中的增量学习来解决静态分类模型的问题。许多机器学习工具已经被应用于这个问题,它们使用静态的机器学习结构,如神经网络或支持向量机,这些结构无法将新的信息容纳到它们现有的模型中。我们利用模糊ARTMAP作为一个替代的机器学习系统,它具有增量学习新数据的能力。模糊ARTMAP被发现可以与许多广泛的机器学习系统相媲美。在选择和组合单个分类器的集成系统中使用进化策略,加上模糊ARTMAP的增量学习能力,证明了它适合作为模式分类器。利用G-偶联蛋白受体数据库的数据对该算法进行了测试,准确率为83%。所提出的系统也是普遍适用的,可用于基因组学和蛋白质组学中的问题。
---
英文标题:
《An Adaptive Strategy for the Classification of G-Protein Coupled
  Receptors》
---
作者:
S. Mohamed, D. Rubin, and T. Marwala
---
最新提交年份:
2007
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--
一级分类:Quantitative Biology        数量生物学
二级分类:Quantitative Methods        定量方法
分类描述:All experimental, numerical, statistical and mathematical contributions of value to biology
对生物学价值的所有实验、数值、统计和数学贡献
--

---
英文摘要:
  One of the major problems in computational biology is the inability of existing classification models to incorporate expanding and new domain knowledge. This problem of static classification models is addressed in this paper by the introduction of incremental learning for problems in bioinformatics. Many machine learning tools have been applied to this problem using static machine learning structures such as neural networks or support vector machines that are unable to accommodate new information into their existing models. We utilize the fuzzy ARTMAP as an alternate machine learning system that has the ability of incrementally learning new data as it becomes available. The fuzzy ARTMAP is found to be comparable to many of the widespread machine learning systems. The use of an evolutionary strategy in the selection and combination of individual classifiers into an ensemble system, coupled with the incremental learning ability of the fuzzy ARTMAP is proven to be suitable as a pattern classifier. The algorithm presented is tested using data from the G-Coupled Protein Receptors Database and shows good accuracy of 83%. The system presented is also generally applicable, and can be used in problems in genomics and proteomics.
---
PDF下载:
--> English_Paper.pdf (951.13 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Quantitative introduction Intelligence Evolutionary Mathematical

沙发
可人4 在职认证  发表于 2022-4-15 10:03:39
一种自适应的G蛋白偶联受体分类策略。Mohamed,D.Rubin,T.Marwala**约翰内斯堡威特沃特斯兰德大学电气与信息工程学院。私人包3,威特斯,2050,南非。摘要:计算生物学中的一个主要问题是现有分类模型无法结合不断扩展的新领域知识。本文通过引入生物信息学中的增量学习来解决静态分类模型的问题。许多机器学习工具已经被应用于这个问题,它们使用静态的机器学习结构,如神经网络或支持向量机,这些结构无法将新的信息容纳到它们现有的模型中。我们利用模糊ARTMAP作为另一种机器学习系统,它具有增量学习新数据的能力。fuzzy ARTMAP被发现可以与许多宽屏机器学习系统相媲美。利用进化策略将单个分类器的选择和组合成集成系统,结合模糊ARTMAP的增量学习能力,证明了它是适合作为模式分类器的。利用G-偶联蛋白受体数据库的数据对该算法进行了验证,准确率为83%。本文提出的系统也是普遍适用的,可用于基因组学和蛋白质组学中的问题。关键词:生物信息学,GPCR,增量学习,模糊ARTMAP1。引言自人类基因组工程完成以来,生物序列分析近年来受到越来越多的关注。作为一个子领域,蛋白质序列分析由于其在药物发现项目[1]和朊病毒疾病分析中的应用而变得重要。生物系统的计算分析的好处在分析药物设计过程时最为明显。新药的开发通常需要长达15年的时间,每种药物的未充分调查成本高达7亿美元[1]。这种药物设计包括两个阶段:发现阶段和测试阶段[2]。正是在这个药物发现阶段,计算工具产生了最大的影响。在药物发现过程中,程序常常用于对许多已知家族中的蛋白质序列进行分类。用数学表示法,如果已知某一疾病的序列是属于家族的,那么该疾病的治疗最初是使用已知适用于[3]的药物组合来确定的。考虑HIV蛋白酶的例子,这是一种由人类免疫缺陷病毒产生的蛋白质。鉴定阶段包括HIV蛋白酶的发现和该蛋白作为抗感染病原体的鉴定。药物设计的目的是设计一种与药物靶点结合并抑制药物靶点的分子。生物信息学工具可以用来预测设计中的分子的结构和功能,并确定它们是否对药物目标有影响。G-蛋白偶联受体(G-Protein couplexed Receptors,GPCRs)是人体内发现的具有mostimportant作用的蛋白质超家族。近年来,许多基于机器学习的分类系统已经发展起来,将序列分类为GPCR家族的一个,并在这方面取得了巨大的成功。

藤椅
大多数88 在职认证  发表于 2022-4-15 10:03:47
本文介绍了一个基于进化策略、增量学习和模糊ARTMAP的分类系统,实现了一个用于GPCR蛋白超家族的蛋白质分类系统,该系统允许对这些蛋白质进行ALLVS。-所有这些蛋白质的比较。该分类器是一个动态的增量系统,具有将新信息引入分类模型的能力。GPCRs的重要性G蛋白偶联受体(GPCRs)是一个蛋白质家族,是人体内最大的超家族。GPCRDB是一个专门存储和注释G-偶联蛋白的数据库,目前有16764个条目[4],GPCRs在神经传递、细胞代谢、分泌、细胞分化和生长以及炎症和免疫反应等细胞信号网络中发挥重要作用[5]。由于这些特性,GPCRs是目前开发的药物中约60%-70%的目标[6],50%的市场上现有药物和前50名最畅销药物中约20%的目标。这导致了超过美国235亿美元的医药销售收入,来自于针对这个超家族的药物[6]。GPCRs与所有主要治疗类别或疾病类别有关,包括疼痛、哮喘、炎症、肥胖、癌症,以及心血管、代谢、胃肠道和中枢神经系统疾病[7]。GPCRsis的主要特点是它们没有完全的序列同源性,并且只有一个共同的结构特征[5]。GPCR超家族由五个大家族和几个假定家族组成,每个家族又分为一级亚家族和二级亚家族。GPCR序列间的极端差异是难以分类的主要原因[1],也是本研究中使用GPCR序列的另一个重要原因。本研究从GPCRDB中可用的家族数中考虑了八个GPCR家族。GPCR序列以EMBL格式存储,该格式包括许多考虑序列方面的标记字段,如许多数据库中的标识符、发现日期和处理蛋白质序列的相关公开。数据库本身每三到四个月更新一次,所用数据中序列长度的分布是一个重要的考虑因素。图1显示了所使用的数据的序列长度分布的直方图,并显示了数据具有单峰分布,对于GPCR数据来说,大多数序列的长度约为350个氨基酸。分布还显示,数据确实包括比模式指示的长度更长和更短的长度。我们可以以此作为一个指示,即所使用的数据足够代表一般的蛋白质数据,所进行的实验结果可以用来表明算法对分类的序列长度不太依赖。图1:GPCR数据的序列长度分布3。

板凳
kedemingshi 在职认证  发表于 2022-4-15 10:03:54
序列比对是通过在每个序列中的字符或字符组之间寻找匹配来比较两个(对比对)或多个(多比对)DNAor蛋白质序列的过程[8]。相似程度用分数值描述,执行这些比对有三种计算方法。简单或成对比对通过使用氨基酸相似矩阵将查询序列与序列数据库中的每一个其他序列比对来确定相似度。Smith-Waterman[9]和Needleman-WunschAlgorithmes[10]是分别寻找最优局部和全局匹配的动态规划技术。一旦确定了最优对齐,就使用反核矩阵来确定对齐序列之间的相似程度。虽然这些算法在确定两个序列之间的最优对齐方面是有效的,但在数据库大范围中使用它在计算上是不可行的。然而,这个问题已经被许多启发式数据库搜索技术所克服,如BLAST[11]和FASTA[12],这些技术在全数据库搜索中变得更加普遍和有效。多重对齐通过首先对来自同一蛋白质超家族、家族或亚家族的一组序列进行对齐,并创建一个一致的序列来表示特定的群体,从而对已知序列的数据库进行搜索。然后使用PairWiseAligning将查询序列与每个共识序列进行比较。查询序列被分类为属于其具有最高相似度得分的组[1]。执行多重序列对齐的一些流行技术是位置特定得分矩阵(PSSM)[13]和ClustalW[14]。thirdcategory使用轮廓隐马尔可夫模型(HMMs)作为一致性序列的替代,但与多重比对技术完全相同。本研究的重点不是基于比对的技术,因此在这里不做详细描述。基于比对的技术在[2,8,15,16]中有详细描述。基于比对技术的问题在序列比对的有效性方面已经发现了许多缺点,这就是为什么这些技术在这里没有考虑。反对序列比对的主要论点是假设同源片段的顺序是保守的[17]。这一假设与公认的理解相矛盾,即进化导致基因重组和核苷酸和氨基酸的重新洗牌[18]。另一个争论在于这些方法缺乏计算效率,这导致了所谓的“无对齐”技术的发展。这些技术主要依赖于机器学习方法[19]和金融理论、Kolmogorov复杂性和Chaostheory的应用[17]。应用于蛋白质分类问题的机器学习工具包括多层感知器神经网络[20,21]、支持向量机[22,23]、K-最近邻分类器[24]和朴素贝叶斯分类器[1]等。模式识别方法允许时间复杂度限制在初始训练过程中,并且不对蛋白同源片段的顺序做出任何假设。

报纸
nandehutu2022 在职认证  发表于 2022-4-15 10:04:00
基于特征的蛋白质序列分类方法使得广泛的分类工具的使用成为可能。大多数蛋白质数据库为数据库中的每个族提供隐马尔可夫模型(HMM),利用隐马尔可夫模型可以确定未知序列属于哪个族。近年来,多层感知器(MLP)神经网络被引入到分类问题中。神经网络已经被Dubchak[25],Nagarajan等人[26]和Weinert andLopes[21]等人应用。每一种方法都在结构域检测或蛋白质折叠预测方面取得了成功。其他类型的classifiershave也被使用。Zhao等人[27]利用了向上向量机,同时也利用了径向基函数(RBF)神经网络和K-最近邻(k-NN)分类器[24]。5.1 Fuzzy ARTMAP用于分类本文将Fuzzy ARTMAP作为一种分类器用于蛋白质分类任务。模糊ARTMAP基于自适应共振理论,由Carpenter等人[28]提出。该学习系统由两个fuzzy ART模块组成,在学习过程中采用了基于微积分的fuzzy运算。图2显示了模糊ARTMAP系统的结构。图2:模糊ArtMapArchitectureFuzzy ARTMAP将输入特征空间划分为n维空间中的多个超盒。它包含一个映射字段,它将个体化超盒映射到ClassificationSystem的输出类。结果表明,模糊ARTMAP能够很好地建模复杂的输入空间。它需要两个变量,其中警惕性参数代表分类精度和增量学习能力之间的权衡。学习速率,是一个因素,根据每个训练模式调整超盒在训练阶段。在这个系统中,这是众所周知的快速学习。关于模糊ARTMAP及其训练的更多细节可以在[28]中找到。5.2遗传算法的概述遗传算法(GA)通过应用进化生物学的原理来寻找问题的近似解,如交叉、变异、繁殖和自然选择[29]。遗传算法的搜索过程包括以下步骤:1)生成候选解的种群(池),其中p是种群的大小。2)基因库中foreach染色体的适配性评价。最低适应度的染色体被丢弃,为新的染色体组让路。染色体替换集是通过对最适合的个体进行交叉和突变的遗传操作而产生的。3)步骤1和步骤2重复给定的世代数,直到达到特定的适应度水平或超过最大世代数[30]。遗传算法通过二进制或浮点编码表示问题的输入数据,并使用遗传操作从潜在解群体中迭代计算结果,以确定全局最优解[30]。遗传算法通过适应度函数来评估候选解,并通过最大化该适应度函数来确定全局最大值。适应度函数包含了来自问题空间的信息,是将问题空间的性质传递给遗传算法的机制,与问题无关。geneticoperations非常重要,因为它们在搜索过程中增加了元素的多变性,从而允许更广泛的解空间被开发。以前的工作中,增量学习的问题以前没有考虑过,因为它是在这里提出的。

地板
mingdashike22 在职认证  发表于 2022-4-15 10:04:07
Vijaya等人[31]考虑了蛋白质序列的增量聚类问题,但这与本文所考虑的问题不同。模糊ARTMAP被选为增量分类器,如上所述,它被证明是一种有效的增量分类器[28]。支持向量机(SVM)在蛋白质分类中得到了广泛的应用,采用增量式的支持向量机更适合于蛋白质分类。虽然存在一些增量式支持向量机算法[32],但这些系统中的许多问题是它们只满足二元分类问题,不适用于多类分类问题,如蛋白质类分类问题。其他增量分类系统也存在,如增量常识性模型和增量模糊决策树。在这些增量分类系统中,模糊ARTMAP是最成熟和最广为人知的,因此被使用。系统概述系统的示意图如Infigure3所示。从蛋白质数据库中提取输入序列,然后将其转换为数值特征向量。然后我们创建一个分类器群体来引入分类多样性,并使用遗传算法结合kappa分析从这个群体中选择合适的多样性分类器。分类器的集成被用作在学习系统中引入模块化的一种手段。利用模糊ARTMAP(FAM)实现了该系统,并通过大量实验对该系统的性能进行了评价。系统的creationand操作的伪代码如清单7所示。通过使用GPCR数据集比较这些系统的分类能力,证明了FAM作为其他更流行分类器的替代分类器的能力。清单7中的算法描述的incrementallearning系统使用GPCR数据,并显示出能够学习新数据和维护现有数据。图3:系统架构概述8。从GPCRDB中获得的数据是ofamino酸序列的形式。为了使这些序列在分类系统中得到应用,必须将它们转换成数值形式。然而,在此转换之前,必须以离群点去除的形式进行预处理。离群点去除包括去除序列,这些序列中的字符不属于标准的20个字母氨基酸字母表--这些字母是Z带,意义模糊。一旦这个过程完成,这些蛋白质序列必须转换成数字特征。在文献中已经确定了两种类型的特征,它们是全局特征和局部特征。Huang等人[33]很好地描述了全局特征和局部特征之间的差异,这种差异在本文中得到了应用。8.1全局特征生成-叶状特征代表了整个蛋白序列的性质。这些特性必须捕获相关序列之间的全局相似性,以便进行比较。考虑这一序列的氨基酸组成。其组成简单地说就是给定序列中20种可能的氨基酸中每一种的存在频率。因此,组成由[27]计算:这里是第ith特征的值,是第ith氨基酸在该序列中出现的次数。这导致了20个特征:每种可能的氨基酸出现的频率。

7
何人来此 在职认证  发表于 2022-4-15 10:04:13
如果在这一序列中完全不存在氨基酸,则相应的特征值为零。还计算了基于给定蛋白质序列中氨基酸水化的第二组特征。氨基酸要么是疏水的,要么是亲水的(极性的),要么是中性的。我们使用Chothia和Finkelstein[25]水病分类。我们计算了Dubchak[25]所述序列的三个描述符,即水化组成(C)、水化分布(D)和水化传递(T),其中组成C的计算类似于前面所述的氨基酸组成。在这种情况下,我们计算了序列中疏水性、亲水性和中性氨基酸的存在频率。这导致生成三个特性。Thetransmission T由三个值定义。第一个是极性分子I的倍数,然后是中和分子,反之亦然。类似地,其他两个是中性分子后面跟着非疏水分子的次数或反之亦然,以及极性分子后面跟着疏水分子的次数或反之亦然。分布D沿着序列长度以25%、50%、75%和100%的间隔来看。对于每一个间隔,计算了在每一个百分比间隔内疏水性、亲水性和中性分子的存在频率。这导致了12个特征,其中4个特征是三个水病组中的每一个。在Dubchak[25]中可以找到对这些特性的更详细的描述。基于全局序列描述器共生成38个特征(20+3+3+12)。8.2局部特征生成局部特征捕捉蛋白质序列中氨基酸和氨基酸组之间的局部相互作用。n-gram方法作为序列局部相似性的agood描述子已被许多作者使用,如Cheng等[1]、Tomovic等[23]和Zhao等[19]。本质上,ngram方法考虑蛋白质序列中连续n个字母组合的存在频率,对于整数n。例如,考虑短序列,这个序列的2克是:SL、LT、TK、KT等。给定一个序列,通过计算氨基酸字母表所有可能的N克的存在频率来生成特征。两个字母组合被称为双字形或双字形。虽然在现有的文献中考虑了更高的n克,如3克和4克,但由于许多作者[1,19]证明它在蛋白内含系统中很好地工作,因此本文只考虑了digrams。总共生成了438个特征,作为最后的后处理步骤,这些特征进行了最小最大规范化。正规化是使用FAM的一个要求,因为FAMs补码方案假定了正规化的数据。9。增量算法和多样性基于委员会的系统的创建基于方差方法,实施了一种进化策略,该策略在算法列表中进行了总结。我们首先训练一个j分类器的初始种群,每个分类器都用不同的输入训练数据排列进行训练。为了将多样性添加到正在创建的分类器中,需要进行这种排列。如上所述,模糊ARTMAP以基于实例的方式学习的事实,使得接收模式的顺序成为一个重要因素[34]。在实验中,初始种群由30个分类器组成,每个分类器的分类误差由一个验证数据集评估。

8
nandehutu2022 在职认证  发表于 2022-4-15 10:04:19
然后,这些分类器根据增加的误差进行排序。这个群体中误差最低的分类器是eliteclassibier,它是自动成为集成系统成员的分类器。该分类器的加入确保了至少一个高精度分类器被选入委员会。下一步是选择剩下的n个分类器。在本应用程序中,我们选择了另外4个分类器。委员会其他成员的选择很重要,需要考虑许多因素:o我们不希望选择与精英分类器完全相同的分类器,因为这没有给所产生的预测带来多样性,因此没有改进的空间。o我们不希望选择低精度分类器,这样会混淆所获得的预测,从而导致比单一分类器更错误的预测。这两个条件似乎相互对立,因为高精度分类器往往会同意相同的预测,这与我们对第1点的要求相反。在分类器的精确度和分类器之间的一致性之间进行权衡是理想的。我们使用byPetrakos et al[35]所考虑的一致性定义,随后的数学描述通常被称为kappa分析。我们根据两个分类器的误差矩阵定义了任意两个分类器之间的一致性[36]。错误矩阵显示了数量,以及两个分类器对哪些类的预测一致。表1显示了两个分类器之间错误矩阵的格式。在上表中,Q是数据中的类数。xin表是分类器1和2同意属于C类的测试模式数。xis分类器1预测属于C类的测试模式数,但分类器2预测属于C类的测试模式数。类似地,整个错误矩阵可以使用任意两个分类器所做的预测来生成。我们根据对精英分类器的预测,确定了15个最佳分类器的误差矩阵。使用下面的一组方程组计算该一致性,其中N是用于生成误差矩阵[36]的训练模式的数目。从这个群体中选择分类器,必须基本上使单个分类器的误差和分类器与精英分类器的一致性最小,这是一个优化问题。我们有必要实现一个遗传算法作为该系统的优化工具。遗传算法(GA)是一种随机优化工具,借用了进化生物学中的选择、交叉和变异等概念[37]。遗传算法通过随机探索可行解空间来最小化为特定问题定义的代价函数。用于分类器选择的遗传算法设计为选择4个分类器,并使所选分类器组合的一致性和误差都最小。遗传算法将选择4个分类器,产生两个向量:我们使用这两个矩阵的线性组合来定义特定分类器选择的代价值。遗传算法将试图改变这一成本。代价函数由等式5定义,引入标量常数来调整一致性在系统中的相对重要性。在本研究中,使误差和一致性同等重要,遗传算法选择4个最优分类器,使等式5的函数最小。

9
kedemingshi 在职认证  发表于 2022-4-15 10:04:25
该遗传算法设计为产生50代解,每代为一个群体30个可能解。实验结果表明,交合率为0.8,交合率为0.4是实验的最佳值。在这种情况下,交叉函数是从标准交叉函数修改的,以确保在每一代中重新选择唯一的分类器,即防止在一个特定的一代中选择该分类器两次。然后,这些选择的分类器被并行地使用,系统中五个分类器中的五个分类器产生独立的预测集。这些预测必须融合在一起,形成最后的决定。决策融合技术很多。其中一些包括多数和加权多数投票,训练组合器融合,中值,最小和最大组合规则[38]。我们采用多数投票决策fusionscheme,它简单地将五个分类器产生的每个预测视为一次投票,对任何给定模式的最终预测由接收到最多投票数的预测给出。蛋白质数据的增量学习如果集合系统要适应每天产生的新发现的序列,那么它就不是一个有用的系统。分类器允许知识更新的能力也被定义为增量学习。模糊ARTMAP通过基于ITSINSTANCITION的学习,能够增量学习新数据。这种增量学习可以考虑两种类型的数据:1。可以为分类器已经训练过的族添加新的序列信息。可以将全新类的数据添加到系统中,从而增加系统具有一般蛋白质结构域的知识。基本系统通常会用无数类的数据来训练。一旦有新的数据可用,系统的增量学习是基于用新的数据增量地训练系统中的5个FAM分类器中的每一个。该系统现在可以用它所训练的所有类的数据进行改进,包括逐步添加到系统中的类。系统测试和实验结果10.1。使用GPCR数据进行测试GPCR数据也被分为6个独立的数据库,并为数据库设置了验证集。在本例中,数据集包含所有可用的8个类的数据。这种特殊的划分被用来演示数据增量学习,其中系统已经训练过的类的新数据被添加到系统中。这种情况更适合用于建立家系的GPCR数据。表2.10.2显示了这些数据库中数据的划分。比较性能我们将模糊ARTMAP与其他更常见的机器学习工具,如支持向量机(SVM)和多层感知器(MLP)进行了比较。这些选择是因为它们在文献中已经广泛使用[1,3,19]。表3显示了实验中考虑的分类器的性能。用于每个分类器的参数包括在表中。使用第5节中描述的特征,将所有训练数据组合成一个单一集来训练分类器,并在测试集上进行测试。该表显示,当与许多其他分类系统比较时,FAM具有相当的准确性。基本分类器的训练和性能的提高基本分类系统是用数据库训练的。

10
mingdashike22 在职认证  发表于 2022-4-15 10:04:32
表4显示了人口的前15个分类器的误差和与精英分类器的一致性。误差是系统在验证数据集上的误差,遗传算法针对该数据集选择分类器2、3、4和12组成最终的集成系统。同样,由精英分类器和遗传算法选择的四个分类器组成的系统使用数据库进行增量训练,每次增量后用测试数据库测试集成。系统的性能如表5所示。这些数据表明,系统非常能够记住已经训练过的数据,如在训练数据库表中出现的许多0%所示。许多零并不是训练的标志。FAM经过训练,以0%的误差学习所有紧张的数据。结果表明,在学习了初始训练数据后,记忆不会因额外数据的增加而降低。该系统还显示,当每个类的数据添加到系统中时,性能确实会提高。在分析结果的基础上,我们介绍了用于蛋白质初级结构族分类的常用工具和技术,并介绍了用于蛋白质数据增量学习的两种算法。在这些蛋白质的分类方面,使用了大量的计算智能技术,包括k近邻分类器和朴素贝叶斯分类器,以及复杂的工具,如多层感知器和支持向量机。虽然这些系统允许将更广泛的涉及蛋白质的进化机制包括在分类系统的设计中,如序列中邻氨基氨基酸基序的不变性,但它们仍然是静态结构,不能将新发现的蛋白质纳入其模型。基于这一点,增量学习作为一种机器学习方法被提出来用于蛋白质分类。该系统基于反进化策略和模糊ARTMAP分类器,结果表明,模糊ARTMAP是一种适合于蛋白质序列结构族分类的机器学习工具,与许多已建立的工具相比,它是一种可比拟的机器学习工具。对序列的分析表明,该系统可以对不同长度的蛋白质进行分类,因此所用的蛋白质序列的长度并不重要。结果表明,模糊ARTMAP是一种适合于对蛋白质序列进行结构族分类的机器学习工具,它与许多已建立的工具是不可比拟的。如果采用某种形式的降维或特征选择,可以提高分类的准确性。这些技术已经被许多作者使用了许多技术。Zhao等[27]和Cheng等[1]将主成分分析作为一种降维技术,并将其作为特征选择的一种方法。Featureselection也可以使用各种次最优特征选择技术,如使用Jmeasure作为距离函数的浮动前向选择搜索[39]或Mohamed等人[40]所证明的遗传算法。对于基于模糊ARTMAP的系统,使用协议κ来度量系统的多样性。还应探讨相关系数的使用或分歧的使用[36],以确定这些替代措施是否在分类器的选择中给出了某种程度的改进。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-24 08:45