楼主: 可人4
454 0

[统计数据] 与蛋白质功能相关的随机树模式识别 家庭 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

76%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
49.1643
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24465 点
帖子
4070
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-3-25 18:35:00 来自手机 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
在这篇论文中,我们解决了利用蛋白质氨基酸序列中包含的信息来识别蛋白质功能的问题。我们提出了一种定义序列相似性关系的方法,该方法可以通过众所周知的基于度量的统计方法作为分类和聚类的输入。在我们的例子中,我们通过基于树空间的简单度量技术具体解决了结构基因组学中有监督和无监督学习的两个问题:1)通过树空间中的K均值聚类来无监督地检测功能家族;2)通过K最近邻树将新蛋白质分类到已知家族中。我们发现证据表明,由我们的方法诱导的相似性度量集中了用于识别的信息。分类具有与其他VLMC方法相同的高性能。然而,聚类是一项更困难的任务,但我们的聚类方法是无对准的和自动的,通过选择基于预先计算的相似性信息的其他聚类或分类过程,如使用流模拟进行聚类的过程,可能会导致许多有趣的变化,参见(Yona et al2000,Enright et al,2003)。
---
英文标题:
《Pattern recognition on random trees associated to protein functionality
  families》
---
作者:
A. G. Flesia, R. Fraiman, F. G. Leonardi
---
最新提交年份:
2007
---
分类信息:

一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--

---
英文摘要:
  In this paper, we address the problem of identifying protein functionality using the information contained in its aminoacid sequence. We propose a method to define sequence similarity relationships that can be used as input for classification and clustering via well known metric based statistical methods. In our examples, we specifically address two problems of supervised and unsupervised learning in structural genomics via simple metric based techniques on the space of trees 1)Unsupervised detection of functionality families via K means clustering in the space of trees, 2)Classification of new proteins into known families via k nearest neighbour trees. We found evidence that the similarity measure induced by our approach concentrates information for discrimination. Classification has the same high performance than others VLMC approaches. Clustering is a harder task, though, but our approach for clustering is alignment free and automatic, and may lead to many interesting variations by choosing other clustering or classification procedures that are based on pre-computed similarity information, as the ones that performs clustering using flow simulation, see (Yona et al 2000, Enright et al, 2003).
---
PDF链接:
https://arxiv.org/pdf/711.1369
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:模式识别 蛋白质 relationship epidemiology Applications 蛋白质 过程 信息 using clustering

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-18 00:58