楼主: 时光永痕
826 0

[数据挖掘新闻] 机器学习中的特征选择技术 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

12%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
机器学习中的特征选择技术
在现实生活中构建机器学习模型时,几乎很少有数据集中的所有变量都可用于构建模型。添加冗余变量会降低模型的泛化能力,也可能会降低分类器的整体准确性。此外,向模型添加越来越多的变量会增加模型的整体复杂性。
根据“奥卡姆剃刀”的简约法则,对问题的最好解释是涉及尽可能少的假设。因此,特征选择成为构建机器学习模型必不可少的部分。
目标
机器学习中特征选择的目标是找到最佳特征集,以使人们能够建立有用的研究现象模型。
机器学习中的特征选择技术可以大致分为以下几类:
监督技术:这些技术可用于标记数据,并用于识别相关特征,以提高监督模型(如分类和回归)的效率。
无监督技术:这些技术可用于未标记的数据。
从分类学的角度来看,这些技术分为以下几种:
A.过滤方法
包装方法
C.嵌入式方法
D.混合方法
在本文中,我们将讨论机器学习中一些流行的特征选择技术。
A.过滤方法
过滤器方法通过单变量统计而非交叉验证性能来获取特征的内在属性。与包装方法相比,这些方法速度更快,计算成本更低。处理高维数据时,使用过滤器方法在计算上更便宜。
让我们讨论其中一些技巧:
信息增益
信息增益根据数据集的转换计算熵的减少。通过在目标变量的上下文中评估每个变量的信息增益,可以将其用于特征选择。
特征选择-信息获取
卡方检验
卡方检验用于数据集中的分类特征。我们计算每个特征与目标之间的卡方,并选择具有最佳卡方得分的特征数量。为了正确应用卡方以测试数据集中各种特征与目标变量之间的关系,必须满足以下条件:变量必须是分类的,独立采样的,并且值应具有预期的频率大于5。
功能选择-卡方
费舍尔分数
Fisher评分是最广泛使用的监督特征选择方法之一。我们将使用的算法根据费舍尔得分的降序返回变量的排名。然后,我们可以根据情况选择变量。
特征选择-Fishers得分
相关系数
相关性是两个或多个变量的线性关系的量度。通过相关性,我们可以从另一个预测一个变量。使用相关性进行特征选择的逻辑在于,良好的变量与目标高度相关。此外,变量应与目标相关,但它们之间应不相关。
如果两个变量相关,则我们可以彼此预测。因此,如果两个功能相关联,则该模型实际上只需要其中一个,因为第二个功能不会添加其他信息。我们将在此处使用Pearson相关。
特征选择-相关
我们需要设置一个绝对值,例如0.5作为选择变量的阈值。如果发现预测变量彼??此相关,则可以删除与目标变量具有较低相关系数值的变量。我们还可以计算多个相关系数,以检查是否有两个以上的变量相互关联。这种现象称为多重共线性。
方差阈值
方差阈值是特征选择的简单基线方法。它将删除方差未达到某个阈值的所有功能。默认情况下,它将删除所有零方差特征,即在所有样本中具有相同值的特征。我们假设具有较高方差的特征可能包含更多有用的信息,但是请注意,我们并未考虑特征变量或特征变量与目标变量之间的关系,这是过滤方法的缺点之一。
特征选择-方差阈值
get_support返回一个布尔向量,其中True表示变量不具有零方差。
平均绝对差(MAD)
“平均绝对差(MAD)从平均值计算出绝对差。方差和MAD度量之间的主要区别是后者没有平方。MAD像方差一样,也是一个比例变量。[1]这意味着MAD越高,鉴别力也越高。
平均绝对误差
分散比
``色散的另一种衡量标准是算术平均值(AM)和几何平均值(GM)。对于n个模式上的给定(正)特征X i,AM和GM由下式给出
AM和GM
分别; 由于AM我≥GM我,平等保持当且仅当X I1 = X I2 = ...。= X in,则比率
R M
可用作色散测量。较高的色散意味着较高的Ri值,因此具有更相关的特征。相反,当所有特征样本都具有(大致)相同的值时,Ri接近1,表明相关性较低。[1]
AM,GM Python代码
GM图'
B. 包装方法:
包装器需要某种方法来搜索特征的所有可能子集的空间,通过学习和评估具有该特征子集的分类器来评估其质量。特征选择过程基于我们试图适合给定数据集的特定机器学习算法。它遵循贪婪搜索方法,即根据评估标准评估要素的所有可能组合。包装方法通常比过滤方法具有更好的预测准确性。
让我们讨论其中一些技巧:
前进特征选择
这是一种迭代方法,其中我们从针对目标的最佳性能变量开始。接下来,我们选择另一个变量,该变量与第一个选定变量结合使用可提供最佳性能。该过程一直持续到达到预设标准为止。
前向选择
后退特征消除
此方法与“前进特征选择”方法完全相反。在这里,我们从所有可用功能开始,并建立一个模型。接下来,我们从模型中得出最佳评估度量值的变量。继续该过程,直到达到预设标准为止。
后向特征消除
将该方法与上面讨论的方法一起也称为顺序特征选择方法。
详尽的特征选择
这是迄今为止涵盖的最强大的功能选择方法。这是对每个功能子集的蛮力评估。这意味着它将尝试所有可能的变量组合并返回性能最佳的子集。
详尽的功能选择
递归特征消除
“给定一个外部估计指派权重特征(例如,一个线性模型的系数),递归特征消除(RFE)的目标是通过递归地考虑越来越小的特征集合选择功能。首先,对估计器进行初始特征集的训练,并且通过coef_属性或feature_importances_属性获得每个特征的重要性。
然后,从当前功能集中删除最不重要的功能。在修剪后的集上递归地重复该过程,直到最终达到所需的要选择的特征数量为止。[2]
递归的
C. 嵌入式方法:
这些方法通过包含特征的交互作用,而且还保持合理的计算成本,从而涵盖了包装方法和过滤方法的优点。从某种意义上说,嵌入式方法是迭代的,它需要照顾模型训练过程的每个迭代,并仔细提取那些对特定迭代的训练贡献最大的特征。
让我们来讨论其中一些技巧,请点击此处:
LASSO正则化(L1)
正则化包括对机器学习模型的不同参数添加惩罚,以减少模型的自由度,即避免过度拟合。在线性模型正则化中,将罚分应用于将每个预测变量相乘的系数。根据不同类型的正则化,Lasso或L1具有能够将某些系数缩小为零的属性。因此,可以从模型中删除该功能。
套索
随机森林重要性
随机森林是一种袋装算法,可聚合指定数量的决策树。随机森林使用的基于树的策略自然会根据它们提高节点纯度的程度(即换句话说,所有树木中杂质(基尼杂质)的减少程度)进行排名。杂质减少量最大的节点出现在树的开头,而杂质减少量最小的音符出现在树的末端。因此,通过修剪特定节点下的树,我们可以创建最重要特征的子集。
随机森林
结论
我们已经讨论了一些用于特征选择的技术。我们故意保留了特征提取技术,例如主成分分析,奇异值分解,线性判别分析等。这些方法有助于减少数据的维数或减少变量的数量,同时保留数据的方差。
除了上面讨论的方法外,还有许多其他的特征选择方法。也有混合方法同时使用过滤和包装技术。如果您想探索更多有关特征选择技术的知识,我认为很好的综合阅读材料将是UrszulaStańczyk和Lakhmi C. Jain撰写的“数据和模式识别的特征选择”。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 特征选择 importance pearson feature

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-21 01:23