《机器学习导论》2nd Edition ---(土耳其)Ethem Alpaydin 著 范明 昝(zan)红英 牛常勇译 ----机械Press-2014.3
客户市场划分(customer segmentation)
一旦找到相似客户的相同分组,公司就可以做出一些决策,比如对不同分组的客户提供特别的服务和产品;这称作客户关系管理(customer relationship management)
这样的分组也可以用于识别“离群点”,即那些不同于其他客户的客户,可能意味着一块新的市场,公司可以进一步开发。
聚类的一个有趣的应用:图像压缩(image compression)
输入实例是RGB表示的图像像素。
聚类程序将颜色近似的像素点分到相同的分组,而这样的分组对应图像中频繁出现的颜色。
在文档聚类(document clustering)中,目标是把相似的文档分组。
文档用词袋(bag of words)表示,即预先定义N个词的词典,每份文档都是一个N维二值向量,如果第i个词出现在该文档中,则其第i个分量取1。删除后缀“-s”和“-ing”等,避免重复,且不用诸如“of”、“and”等不包含信息的词。
文档根据它们包含的相同词的个数分组。
(当然,如何选取词典至关重要)
ML方法还应用于生物信息学(bioinformation):基因组,DNA是“生命的蓝图”,也是碱基即A、G、C、T的序列。
RNA由DNA转录而来,蛋白质由RNA转换而来。蛋白质就是生命体和生命体的产物。
DNA是碱基序列,蛋白质是氨基酸(由碱基定义)序列。
计算机科学在分子生物学的应用领域之一就是比对(alignment),即将一个序列与另一个序列匹配。
这是一个困难的串匹配问题,因为序列可能相当长,有很多模板串要进行匹配,还可能会被删节、插入、置换。
聚类用于学习结构域(motif),这是蛋白质结构中反复出现的氨基酸序列。
结构域之所以令人感兴趣,是因为它们可能对应它们所表征的序列内部的结构或功能要素。
打个比方,如果氨基酸是字母,蛋白质是句子,那么结构域就是单词,即具有特别意义、频繁出现在不同句子中的一串字母



雷达卡




京公网安备 11010802022788号







