使用R在Power BI中进行群集
我已经使用了 K均值聚类方法来显示鸢尾花的不同种类。
关于数据集: 鸢尾花数据集具有5个属性(头长,萼片宽度,瓣宽,瓣长,种类)。这3个不同的物种被命名为Setosa, Versicolor和Virginica。可以看出,每个物种的花瓣长度和花瓣宽度相似,因此我考虑了x轴的花瓣长度和y轴的花瓣宽度来绘制图形。
K均值聚类: K均值是一种非分层的迭代聚类技术。在此技术中,我们首先将数据点随机分配给聚类。我们知道我们的数据集中有3种不同的物种,因此我采用了3个聚类。该算法将开始将每个数据点分配给这3个群集。然后,使用“ Eluclidian空间”计算每个数据点到分配的聚类质心的距离。根据距离重新排列质心。反复进行此过程,直到群集变得稳定并且没有要移动的数据点为止。
R视觉: 在视觉中,我们可以看到聚类后物种如何分离。这里1是Setosa,群集2是Versicolor,群集3是Virginica。 我们还可以看到该算法在Versicolor和Virginica中错误地分配了几个数据点。
缺点: 在聚类后,我们发现在Versicolor中几乎看不到属于Setosa的数据点,反之亦然。但是,这种聚类更适合无监督学习以及拥有大量数据集的情况。
码:
require('ggplot2')
库(ggplot2)
set.seed(20)
iris < -kmeans(dataset [,3:4],3,nstart = 20)
簇<-as.factor(iris $ cluster)
ggplot(dataset, aes(PetalLength,PetalWidth, color = Clusters))+ geom_point(形状= 17,大小= 4)
题库