楼主: albertwishedu
739 4

[学习笔记] 【机器学习导论 2ndEd】充实笔记0316 [推广有奖]

已卖:251份资源

大师

55%

还不是VIP/贵宾

-

威望
1
论坛币
71385 个
通用积分
14003.2373
学术水平
749 点
热心指数
907 点
信用等级
676 点
经验
365078 点
帖子
22420
精华
0
在线时间
2566 小时
注册时间
2014-7-8
最后登录
2025-12-31

楼主
albertwishedu 发表于 2019-3-16 22:00:33 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
机器学习导论》2nd Edition ---(土耳其)Ethem Alpaydin 著 范明 昝(zan)红英 牛常勇译 ----机械Press-2014.3



客户市场划分(customer segmentation)
一旦找到相似客户的相同分组,公司就可以做出一些决策,比如对不同分组的客户提供特别的服务和产品;这称作客户关系管理(customer relationship management)
这样的分组也可以用于识别“离群点”,即那些不同于其他客户的客户,可能意味着一块新的市场,公司可以进一步开发。

聚类的一个有趣的应用:图像压缩(image compression)
输入实例是RGB表示的图像像素。
聚类程序将颜色近似的像素点分到相同的分组,而这样的分组对应图像中频繁出现的颜色。

文档聚类(document clustering)中,目标是把相似的文档分组。
文档用词袋(bag of words)表示,即预先定义N个词的词典,每份文档都是一个N维二值向量,如果第i个词出现在该文档中,则其第i个分量取1。删除后缀“-s”和“-ing”等,避免重复,且不用诸如“of”、“and”等不包含信息的词。
文档根据它们包含的相同词的个数分组。
(当然,如何选取词典至关重要)

ML方法还应用于生物信息学(bioinformation):基因组,DNA是“生命的蓝图”,也是碱基即A、G、C、T的序列。
RNA由DNA转录而来,蛋白质由RNA转换而来。蛋白质就是生命体和生命体的产物。
DNA是碱基序列,蛋白质是氨基酸(由碱基定义)序列。
计算机科学在分子生物学的应用领域之一就是比对(alignment),即将一个序列与另一个序列匹配。
这是一个困难的串匹配问题,因为序列可能相当长,有很多模板串要进行匹配,还可能会被删节、插入、置换。
聚类用于学习结构域(motif),这是蛋白质结构中反复出现的氨基酸序列。
结构域之所以令人感兴趣,是因为它们可能对应它们所表征的序列内部的结构或功能要素。
打个比方,如果氨基酸是字母,蛋白质是句子,那么结构域就是单词,即具有特别意义、频繁出现在不同句子中的一串字母


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 relationship Segmentation information compression

回帖推荐

sulight 发表于5楼  查看完整内容

谢谢分享, 计算机科学在分子生物学的应用领域之一就是比对(alignment),即将一个序列与另一个序列匹配。这是一个困难的串匹配问题,因为序列可能相当长,有很多模板串要进行匹配,还可能会被删节、插入、置换。聚类用于学习结构域(motif),这是蛋白质结构中反复出现的氨基酸序列。

充实每一天 发表于4楼  查看完整内容

已点赞~

经管之家编辑部 发表于3楼  查看完整内容

为你点赞!

胡明敏 发表于2楼  查看完整内容

谢谢分享
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
经管之家编辑部 + 100 + 3 + 3 + 3 精彩帖子

总评分: 论坛币 + 100  学术水平 + 3  热心指数 + 3  信用等级 + 3   查看全部评分

本帖被以下文库推荐

沙发
胡明敏 发表于 2019-3-16 22:06:33
谢谢分享

藤椅
经管之家编辑部 在职认证  发表于 2019-3-17 06:15:45
为你点赞!

板凳
充实每一天 发表于 2019-3-17 13:33:15 来自手机
已点赞~

报纸
sulight 学生认证  发表于 2019-3-17 20:21:55
谢谢分享,
计算机科学在分子生物学的应用领域之一就是比对(alignment),即将一个序列与另一个序列匹配。这是一个困难的串匹配问题,因为序列可能相当长,有很多模板串要进行匹配,还可能会被删节、插入、置换。聚类用于学习结构域(motif),这是蛋白质结构中反复出现的氨基酸序列。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-31 21:20