无监督学习无标签数据世界的角度
无监督学习;是三种机器学习类型之一,即有监督机器学习,无监督机器学习和强化学习。这篇文章仅限于无监督机器学习,以探索其详细信息。
无监督机器学习
一种具有探索隐藏的宝石/图案的想法的技术。
在数据中找到一些固有的结构。
肉眼看不到的东西需要放大镜(UML)
在无监督学习中,可用数据没有目标属性。 机器学习算法仅将 训练示例作为一组属性/特征。无监督学习的目的是尝试在训练集中找到自然的分区。最常见的无监督学习方法是聚类分析,同时,UML中的两种通用策略包括:
聚类– 根据与聚类质心的距离将数据划分为不同的聚类
分层群集– 群集树是使用群集的多层层次结构构建的。没有集群数量的假设
集聚–在这项技术中,它的起点是各个点,随着它们的前进,这些点成为单独的簇。在每一步中,合并最接近的一对集群,直到只剩下一个集群。
分裂–从这里开始,它是一个全包集群。在每个步骤中,拆分一个群集,直到每个群集包含一个点。
系统根据输入数据以及输入数据与输出数据之间的关系进行模式,规律性和特征等的自发现。在这里发现主要的目标是发现形式簇的异同,即自我发现。由于提供给学习者的示例没有标记,因此没有错误或奖励信号可以评估潜在的解决方案。这将无监督学习与有监督学习和强化学习区分开来。
无监督学习–优点和缺点
由于没有为 学习算法提供标签,因此仅靠学习算法 来查找输入中的结构。无监督学习本身就是一个挑战性的目标。训练数据由一组输入向量x组成,没有任何对应的目标值;因此被称为学习/没有主管的工作。
优点
它可以检测出人眼无法理解的内容
对于企业而言,隐藏模式的潜力可能非常强大,甚至可以检测出非常惊人的事实,欺诈检测等。
输出可以确定企业尚未开发的领域和新企业。可以应用探索性分析来了解背后发生的财务,业务和运营动因。
缺点
从上面的解释中可以看出,与监督学习相比,无监督学习更加困难。
这可能是一项代价高昂的事情,因为我们可能需要外部专家一段时间才能查看结果。
结果的实用性;由于没有答案标签,因此很难确定是否具有任何价值。
无监督学习类别
参数无监督学习
非参数无监督学习
尽管在参数算法中,尽管不需要大量数据进行训练,但是它也确实导致过拟合。 参数拟合和非参数过拟合更为常见。两种算法都可以拟合数据过多和不足。
无监督学习
AILabPage的–机器学习系列
无监督机器学习中的常用算法
常见的聚类算法包括:
分层聚类:在该技术中,算法通过创建聚类树来构建聚类的多层层次
k均值聚类:此处数据根据到聚类中心的距离将其划分为k个不同的聚类
高斯混合模型:算法建立一个模型,其中模型将多元正态密度分量的混合物聚类
自组织图:通过使用神经网络学习数据的拓扑和分布,超级简化了这一过程
隐马尔可夫模型:仅使用观测数据即可恢复状态序列
无监督学习
聚簇搜索器的数量可以根据它们之间的距离和每个聚类的样本方差来自适应选择。不受监督的最佳用途是探索性分析,以了解发生了什么的财务,业务和运营动因。
题库


雷达卡



京公网安备 11010802022788号







