楼主: 时光永痕
479 0

[数据挖掘新闻] 使用无监督机器学习技术评估印度的教育质量 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

91%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
使用无监督机器学习技术评估印度的教育质量
在这个项目中,我们尝试评估印度的教育系统,并根据评估参数对国家进行分类。
印度是一个拥有众多州的大国,因此不同的州会有不同的问题。因此,一个通用的解决方案无法解决这里的所有问题,因此对州进行分类并分别查看每个类别的问题可以为教育系统带来巨大的改善。
注意:此博客仅包含说明。博客末尾提供了带有详细解释代码的详细笔记本作为链接。我没有在此处放置代码,以便读者可以很好地理解该概念,然后再看代码。
我们将基于7个与教育相关的参数使用聚类方法对状态进行分类/聚类:
拥有饮用水设施的学校的百分比
毛入学率
辍学率
拥有计算机的学校百分比
通电学校的百分比
带男孩厕所的学校
带女洗手间的学校
数据集
数据集是从此链接收集的。
上述每个参数的数据集都包含2013-14至2015-16三年间印度每个州的数据。我们采用了最新数据(2015-16)进行分析。如果某个州缺少值,则我们采用上一年(2014-15或2013-14)的值。如果缺少该特定状态的所有值,那么我们将使用该特定参数/列的所有状态的平均值进行估算。因此,通过这种方式,在选择了最近的数据并估算了缺失值之后,我们提出了一个新的CSV文件d_c __。csv,该文件将用于聚类。
聚类是将相关数据分组在一起的技术。
聚类
在上图中,我们可以看到有4个簇。因此,每个簇称为由蓝点集中在一起形成的4个斑点中的每个斑点。
程序
分析数据集
首先,让我们看一下将要使用的数据集。
聚类数据
在这里,所有功能部件/参数名称都是不言自明的,除了“ comp ”(表示 拥有计算机的学校百分比)之外。
现在让我们看一下该数据集的摘要统计信息。
聚类数据
我们可以看到,我们有印度36个州和联盟领土的数据。mean_dropout特征的范围是3.7-19.5,而其他特征的范围是40-100以上(入学率甚至超过100)。而且,其中一些的平均值与其他平均值明显不同。在使用欧几里德距离来计算点之间距离的聚类算法的情况下,特征之间数据范围的这种变化可能会使结果偏向更高范围的参数。因此,我们首先使用MinMaxScaling()将它们标准化为0和1之间的所有值。
寻找最佳群集编号
标准化数据集后,我们将使用KMeans聚类对相似的教育数据进行分组/聚类。K-Means算法通过将两个具有最小欧氏距离的数据点组合在一起来工作。
我们事先不知道簇的数量。我们将在使用Elbow方法的KMeans聚类算法的情况下进行确定。之所以称其为“肘部方法”,是因为我们将在图形的该点停止陡峭下降的位置(就像手肘一样)选择聚类。这是WCSS(簇内平方和)下降非常缓慢的地方。
WCSS是集群中点之间的距离。
集群WCSS
从上面的图中可以看出,2或3可能是理想的群集数。
要在2和3(理想的群集数量)之间进行具体选择,我们将使用一些指标,如下所述:
轮廓分数-范围从-1到1。值越高,群集越好。接近1表示完美的簇。0表示该点位于其群集的边界。负值表示该点被分类为错误的簇。
Calinski-Harabasz索引表示数据点如何在群集中扩展。分数越高,簇越密集,因此簇越好。从0开始,没有上限。
戴维斯Boulden指数测量使用所述的比例簇之间的平均相似性的簇和其最接近的点之间的距离及一个簇的每个数据点和其群集中心之间的平均距离。分数越接近0,则表明群集区域分离得越好,群集区域越好。
让我们检查这些指标的值,以找到针对缩放数据的KMeans算法的理想簇数。我们已经得出结论,在2或3个群集是理想的群集数之前,但是我们也将为了演示的目的对4或5个群集进行测试。
正如Elbow方法所期望的那样,2具有最佳的Silhouette得分和Davies Bouldin得分,以及第二好的Calinski Harabasz得分。因此,群集的2个数字可能是理想的选择。
尽管我们已经讨论过了,但是在应用基于距离的聚类算法之前,我们应该始终将数据归一化到相似的范围,但是我们还要使用KMeans算法对未归一化的数据检查指标值。请记住,进行实验总是更好的理解和结果。
我们可以看到,在这种情况下,最佳群集数是3。但是,尽管Calinski Harabarz得分有所提高,但Silhouette得分和Davies Bouldin得分均比我们之前评估过的2个簇差。总体而言,模型性能有所下降。因此,如前所述,在聚类之前对数据点进行归一化确实可以获得良好的结果。
接下来,我们将使用称为聚类聚类的分层聚类技术。这是一种自底向上的聚类方法,其中,首先将每个数据点视为一个单独的聚类,然后根据距离度量合并最近的点,直到获得单个聚类。
可以使用树状图可视化层次聚类,如下所示。在树状图(红色和绿色)中,此数据的合适簇数显示为2。
从树状图可以看出,该数据集的理想聚类数目为2,KMeans算法也发现了相同的数目。我们将再次使用Silhouette Score,Calinski Harabarz Index和Davis Bouldin Score进行验证。
不同类型的链接(用于合并两个群集以形成更大群集的度量标准/标准)功能:
单个群集:它通过考虑两个群集之间最接近的(最小)点来合并群集。分钟(Dist-a – Dist-b)。点对之间的距离最小的聚类对将合并。
完整聚类:基于两个聚类之间一对点之间最远(最大)距离的聚类。点对之间距离最大的聚类对将合并。max(Dist-a – Dist-b)
病房链接:查找两个聚类之间的一对点之间的最小平方距离。点对距离之间平方差最小的群集对将合并。
平均链接:根据一个群集中所有点与其他群集中的点的平均距离合并群集。平均距离最低的群集对将合并。
对规范化数据执行聚集聚类:
从输出表中可以看出,采用链接方法“平均值”或“病房”的理想簇数确实为2。
现在,让我们使用聚集聚类(区域链接)来处理非规范化数据并检查其性能。
对于非标准化数据集,最好使用2个具有完全链接的聚类。但是在使用规范化数据集的情况下,性能会更好。尽管Davies Bouldin得分表现略低,但Silhouette得分和Calinski Harabarz得分表现较好。
2归一化数据集上的算法KMeans和Agglomerative的聚类具有相同的性能。让我们看看两种算法的两个群集中每个特性/参数的值如何变化。
检查每个集群中参数值的分布
KMeans算法每个特征/参数的聚类划分:
https://colab.research.google.com/drive/1dv4ezgfaIg8vPCdLtdoK0FtHuYnjiFw1#scrollTo=O2IlTbyHc1oM&line=1&uniqifier=1  <-如果该图像不清楚,请单击此处查看真实的图像。
聚类k均值
聚集聚类算法每个特征/参数的聚类划分:
https://colab.research.google.com/drive/1dv4ezgfaIg8vPCdLtdoK0FtHuYnjiFw1#scrollTo=pon-1LEBCQ9Y&line=1&uniqifier=1   <-如果该图像不清楚,请单击此处查看真实的图像。
我们看到,KMeans和聚集聚类在跨聚类的每个要素/类别的值范围都完全相同。
根据对箱形图的仔细观察,我们可以得出结论,类别0 /类别0的comp,电,水和厕所特征具有较高的值。因此,可以说,属于集群0的州的基础设施要比集群1的学校好得多。另一方面,簇0的两组的辍学率几乎相同,变异性更高。入学率对类1来说不错。
因此,我们可以调用组/群-0更高的基础设施,小招生比,和组/群1一样都不能少,基础设施,更好地招生,比。
让我们检查哪些状态属于群集1:
我们可以看到,安达曼和尼科巴群岛,昌迪加尔,拉克沙德维普,米佐拉姆,锡金和特里普拉等州/犹他州属于集群1,即它们的学校基础设施较少,但入学率却比集群0好。
在地图上绘制跨州的2个群集
现在,我们将使用印度各州的shapefile在地图上绘制聚类。它是矢量地图表示,其中使用点,线和面,多面将位置表示为离散对象的集合。
任何国家的州轮廓都是由多边形或多面体形成的,每个多边形/多面体都是由点和线组成的。
我们使用Python中的Geopandas库将印度各州的shapefile导入表格格式,如下所示。
“几何”列的POLYGON或MULTIPOLYGON内部的数字表示形成状态形状的每个点的坐标(纬度和经度)。
现在,我们将根据其所属的类别为印度各州上色:
只有6个地区被归为一个类,其余30个为其他类。我们需要更好的分类或分组,以便更好地分析各组之间的学校。因此,我们将簇数增加到3。尽管根据聚类算法,2是簇数的最有效选择,但是如果需要,我们可以真正修改结果以达到最终目的。地图图是交互式的,易于可视化和解释。
尝试使用3个群集进行更精细的分组
凝聚聚类算法对标准化的数据与3群:
https://colab.research.google.com/drive/1dv4ezgfaIg8vPCdLtdoK0FtHuYnjiFw1#scrollTo=NUR0U3ngX1LS&line=2&uniqifier=1  <-如果该图像不清楚,请单击此处查看真实的图像。
如果仔细看一下箱线图,我们会发现,就基础设施而言,计算机,电力,水和厕所的集群1范围最大(尽管对于水和厕所的差别并不大),所以就基础架构而言最好的集群。然后是集群0,最后集群2的基础架构值范围最差。在集群2的情况下,入学率最高。聚类0和1的入学率几乎与聚类1相同,后者在较高的取值范围内具有较高的可变性。就辍学率而言,簇-0的取值范围比其他的更大。
因此,我们将群集命名为:
0:基础设施良好,注册率较低,辍学率较高
1:最佳基础设施,良好的入学率,辍学率低
2:基础设施不足,最佳基础设施比率,中等辍学
注意:最佳>良好
高>中>低
现在,让我们看一下KMeans聚类(标准化数据)的情况:
https://colab.research.google.com/drive/1dv4ezgfaIg8vPCdLtdoK0FtHuYnjiFw1#scrollTo=NUR0U3ngX1LS&line=2&uniqifier=1   <-如果该图像不清楚,请单击此处查看真实的图像。
聚类k均值
如果仔细检查,我们会发现结果与聚集聚类非常相似,只有前者中的cluster-0表示为后者中的cluster-1。
我们可以看到在cluster-0中有16个状态,在cluster-1中有14个状态,在cluster-2中有6个状态。
基本上集群0中的2群集算法的是有30个状态分为群集0&1在比16时14分3群集算法。
在地图上绘制跨州的3个群集
现在,让我们在地图上显示基于这三个群集的状态:
聚类图
因此,正如我们所看到的,状态根据其所属的群集而着色。
结论
因此,我们成功地将印度各州分为不同的集群。这将有助于教育部门/政府 针对每个群集制定具体的改进计划,从而在印度的教育领域取得更大的进步。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 教育质量 Research Researc k-means

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-17 14:27