楼主: 时光永痕
988 0

[数据挖掘新闻] 使用R在Power BI中进行群集 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

45%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
使用R在Power BI中进行群集
我已经使用了 K均值聚类方法来显示鸢尾花的不同种类。
关于数据集: 鸢尾花数据集具有5个属性(头长,萼片宽度,瓣宽,瓣长,种类)。这3个不同的物种被命名为Setosa, Versicolor和Virginica。可以看出,每个物种的花瓣长度和花瓣宽度相似,因此我考虑了x轴的花瓣长度和y轴的花瓣宽度来绘制图形。
K均值聚类:  K均值是一种非分层的迭代聚类技术。在此技术中,我们首先将数据点随机分配给聚类。我们知道我们的数据集中有3种不同的物种,因此我采用了3个聚类。该算法将开始将每个数据点分配给这3个群集。然后,使用“ Eluclidian空间”计算每个数据点到分配的聚类质心的距离。根据距离重新排列质心。反复进行此过程,直到群集变得稳定并且没有要移动的数据点为止。
R视觉: 在视觉中,我们可以看到聚类后物种如何分离。这里1是Setosa,群集2是Versicolor,群集3是Virginica。 我们还可以看到该算法在Versicolor和Virginica中错误地分配了几个数据点。
缺点: 在聚类后,我们发现在Versicolor中几乎看不到属于Setosa的数据点,反之亦然。但是,这种聚类更适合无监督学习以及拥有大量数据集的情况。
码:
require('ggplot2')
库(ggplot2)
set.seed(20)
iris < -kmeans(dataset [,3:4],3,nstart = 20)
簇<-as.factor(iris $ cluster)
ggplot(dataset, aes(PetalLength,PetalWidth, color = Clusters))+ geom_point(形状= 17,大小= 4)
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Power wer ggplot2 dataset require

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 18:31