楼主: CDA网校
1250 2

如何通过分类数据执行特征选择?-CDA网校 [推广有奖]

管理员

已卖:189份资源

泰斗

3%

还不是VIP/贵宾

-

威望
3
论坛币
117882 个
通用积分
10088.6308
学术水平
278 点
热心指数
286 点
信用等级
253 点
经验
227980 点
帖子
6904
精华
19
在线时间
4373 小时
注册时间
2019-9-13
最后登录
2025-12-31

初级热心勋章

楼主
CDA网校 学生认证  发表于 2020-3-10 17:30:23 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币


作者 | Jason Brownlee


编译 | CDA数据分析



特征选择是识别和选择与目标变量最相关的输入特征子集的过程。

使用实值数据(例如使用Pearson的相关系数)时,特征选择通常很简单,但是使用分类数据时可能会遇到挑战。

当目标变量也是分类的(例如分类预测建模)时,分类输入数据的两种最常用的特征选择方法是卡方统计和互信息统计。

在本教程中,您将发现如何使用分类输入数据执行特征选择。

完成本教程后,您将知道:

  • 具有分类输入和二元分类目标变量的乳腺癌预测建模问题。
  • 如何使用卡方和互信息统计来评估分类特征的重要性。
  • 在拟合和评估分类模型时,如何对分类数据执行特征选择。
教程概述

本教程分为三个部分:他们是:

  • 乳腺癌分类数据集
  • 分类特征选择
  • 使用选定特征建模
乳腺癌分类数据集

作为本教程的基础,我们将使用自1980年代以来作为机器学习数据集而被广泛研究的所谓“ 乳腺癌 ”数据集。

该数据集将乳腺癌患者数据分类为癌症复发或无复发。有286个示例和9个输入变量。这是一个二进制分类问题。

天真的模型可以在此数据集上达到70%的精度。好的分数大约是76%+/- 3%。我们将针对该区域,但是请注意,本教程中的模型并未进行优化。它们旨在演示编码方案。

您可以下载数据集,然后将文件另存为“ breast-cancer.csv ”在当前工作目录中。

  • 乳腺癌数据集(breast-cancer.csv)

查看数据,我们可以看到所有九个输入变量都是分类的。

具体来说,所有变量都用引号引起来;有些是序数,有些不是。

  1. '40-49','premeno','15-19','0-2','yes','3','right','left_up','no','recurrence-events'
  2. '50-59','ge40','15-19','0-2','no','1','right','central','no','no-recurrence-events'
  3. '50-59','ge40','35-39','0-2','no','2','left','left_low','no','recurrence-events'
  4. '40-49','premeno','35-39','0-2','yes','3','right','left_low','yes','no-recurrence-events'
  5. '40-49','premeno','30-34','3-5','yes','2','left','right_up','no','recurrence-events'
  6. ...
复制代码


我们可以使用Pandas库将该数据集加载到内存中。

  1. ... # load the dataset as a pandas DataFrame
  2. data = read_csv(filename, header=None)
  3. # retrievenumpy array
  4. dataset = data.values
复制代码


加载后,我们可以将列分为输入(X)和输出以进行建模。

  1. ...
  2. # split into input (X) and output (y) variables
  3. X = dataset[:, :-1]
  4. y = dataset[:,-1]
复制代码


最后,我们可以将输入数据中的所有字段都强制为字符串,以防万一熊猫试图将某些字段自动映射为数字(确实如此)。

  1. ...
  2. # format all fields as string
  3. X = X.astype(str)
复制代码


我们可以将所有这些结合到一个有用的功能中,以备后用。

  1. # load the dataset
  2. def load_dataset(filename):
  3. # load the dataset as a pandas DataFrame
  4. data = read_csv(filename, header=None)
  5. # retrieve numpy array
  6. dataset = data.values
  7. # split into input (X) and output (y) variables
  8. X = dataset[:, :-1]
  9. y = dataset[:,-1]
  10. # format all fields as string
  11. X = X.astype(str)
  12. return X, y
复制代码


加载后,我们可以将数据分为训练集和测试集,以便我们可以拟合和评估学习模型。

我们将使用scikit-learn形式的traintestsplit()函数,并将67%的数据用于训练,将33%的数据用于测试。

  1. ...
  2. # load the dataset
  3. X, y = load_dataset('breast-cancer.csv')
  4. # split into train and test sets
  5. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
复制代码


将所有这些元素结合在一起,下面列出了加载,拆分和汇总原始分类数据集的完整示例。

  1. # load and summarize the dataset
  2. from pandas import read_csv
  3. from sklearn.model_selection import train_test_split
  4. # load the dataset
  5. def load_dataset(filename):
  6. # load the dataset as a pandasDataFrame
  7. data = read_csv(filename, header=None)
  8. # retrieve numpy array
  9. dataset = data.values
  10. # split into input (X) and output (y) variables
  11. X = dataset[:, :-1]
  12. y = dataset[:,-1]
  13. # format all fields as string
  14. X = X.astype(str)
  15. return X, y
  16. # load the dataset
  17. X, y = load_dataset('breast-cancer.csv')
  18. # split into train and test sets
  19. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
  20. # summarize
  21. print('Train', X_train.shape, y_train.shape)
  22. print('Test', X_test.shape, y_test.shape)
复制代码


运行示例将报告训练和测试集的输入和输出元素的大小。

我们可以看到,我们有191个示例用于培训,而95个用于测试。

  1. Train (191, 9) (191, 1)
  2. Test (95, 9) (95, 1)
复制代码


既然我们已经熟悉了数据集,那么让我们看一下如何对它进行编码以进行建模。

我们可以使用scikit-learn的OrdinalEncoder()将每个变量编码为整数。这是一个灵活的类,并且允许将类别的顺序指定为参数(如果已知这样的顺序)。

注意:我将作为练习来更新以下示例,以尝试为具有自然顺序的变量指定顺序,并查看其是否对模型性能产生影响。

对变量进行编码的最佳实践是使编码适合训练数据集,然后将其应用于训练和测试数据集。

下面名为prepare_inputs()的函数获取火车和测试集的输入数据,并使用序数编码对其进行编码。

  1. # prepare input data
  2. def prepare_inputs(X_train, X_test):
  3. oe = OrdinalEncoder()
  4. oe.fit(X_train)
  5. X_train_enc = oe.transform(X_train)
  6. X_test_enc = oe.transform(X_test)
  7. return X_train_enc, X_test_enc
复制代码


我们还需要准备目标变量。

这是一个二进制分类问题,因此我们需要将两个类标签映射到0和1。这是一种序数编码,而scikit-learn提供了专门为此目的设计的LabelEncoder类。尽管LabelEncoder设计用于编码单个变量,但我们可以轻松使用OrdinalEncoder并获得相同的结果。

所述prepare_targets()函数整数编码的训练集和测试集的输出数据。

  1. # prepare target
复制代码


我们可以调用这些函数来准备我们的数据。

  1. ...
  2. # prepare input data
  3. X_train_enc, X_test_enc = prepare_inputs(X_train, X_test)
  4. # prepare output data
  5. y_train_enc, y_test_enc = prepare_targets(y_train, y_test)
复制代码


综上所述,下面列出了加载和编码乳腺癌分类数据集的输入和输出变量的完整示例。

  1. # example of loading and preparing the breast cancer dataset
  2. from pandas import read_csv
  3. from sklearn.model_selection import train_test_split
  4. from sklearn.preprocessing import LabelEncoder
  5. from sklearn.preprocessing import OrdinalEncoder
  6. # load the dataset
  7. def load_dataset(filename):
  8. # load the dataset as a pandas DataFrame
  9. data = read_csv(filename, header=None)
  10. # retrieve numpy array
  11. dataset = data.values
  12. # split into input (X) and output (y) variables
  13. X = dataset[:, :-1]
  14. y = dataset[:,-1]
  15. # format all fields as string
  16. X = X.astype(str)
  17. return X, y
  18. # prepare input data
  19. def prepare_inputs(X_train, X_test):
  20. oe = OrdinalEncoder()
  21. oe.fit(X_train)
  22. X_train_enc = oe.transform(X_train)
  23. X_test_enc = oe.transform(X_test)
  24. return X_train_enc, X_test_enc
  25. # prepare target
  26. def prepare_targets(y_train, y_test):
  27. le = LabelEncoder()
  28. le.fit(y_train)
  29. y_train_enc = le.transform(y_train)
  30. y_test_enc = le.transform(y_test)
  31. return y_train_enc, y_test_enc
  32. # load the dataset
  33. X, y = load_dataset('breast-cancer.csv')
  34. # split into train and test sets
  35. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
  36. # prepare input data
  37. X_train_enc, X_test_enc = prepare_inputs(X_train, X_test)
  38. # prepare output data
  39. y_train_enc, y_test_enc = prepare_targets(y_train, y_test)
复制代码


现在我们已经加载并准备了乳腺癌数据集,我们可以探索特征选择。

分类特征选择

有两种流行的特征选择技术,可用于分类输入数据和分类(类)目标变量。

他们是:

  • 卡方统计。
  • 相互信息统计。

让我们依次仔细研究每个对象。

卡方特征选择

皮尔逊的卡方统计假设检验是分类变量之间独立性检验的一个示例。

您可以在教程中了解有关此统计测试的更多信息:

  • 机器学习的Chi-方检验的温和介绍

该测试的结果可用于特征选择,其中可以从数据集中删除与目标变量无关的那些特征。

scikit-learn机器库在chi2()函数中提供了卡方检验的实现。此功能可用于特征选择策略中,例如通过SelectKBest类选择前k个最相关的特征(最大值)。

例如,我们可以定义SelectKBest类以使用chi2 ()函数并选择所有功能,然后转换训练序列和测试集。

  1. ...
  2. fs = SelectKBest(score_func=chi2, k='all')
  3. fs.fit(X_train, y_train)
  4. X_train_fs = fs.transform(X_train)
  5. X_test_fs = fs.transform(X_test)
复制代码


然后,我们可以打印每个变量的分数(越大越好),并将每个变量的分数绘制为条形图,以了解应该选择多少个特征。

  1. ...
  2. # what are scores for the features
  3. for i in range(len(fs.scores_)):
  4. print('Feature %d: %f' % (i, fs.scores_[i]))
  5. # plot the scores
  6. pyplot.bar([i for i in range(len(fs.scores_))], fs.scores_)
  7. pyplot.show()
复制代码


将其与上一节中乳腺癌数据集的数据准备结合在一起,下面列出了完整的示例。

  1. # example of chi squared feature selection for categorical data
  2. from pandas import read_csv
  3. from sklearn.model_selection import train_test_split
  4. from sklearn.preprocessing import LabelEncoder
  5. from sklearn.preprocessing import OrdinalEncoder
  6. from sklearn.feature_selection import SelectKBest
  7. from sklearn.feature_selection import chi2
  8. from matplotlib import pyplot
  9. # load the dataset
  10. def load_dataset(filename):
  11. # load the dataset as a pandas DataFrame
  12. data = read_csv(filename, header=None)
  13. # retrieve numpy array
  14. dataset = data.values
  15. # split into input (X) and output (y) variables
  16. X = dataset[:, :-1]
  17. y = dataset[:,-1]
  18. # format all fields as string
  19. X = X.astype(str)
  20. return X, y
  21. # prepare input data
  22. def prepare_inputs(X_train, X_test):
  23. oe = OrdinalEncoder()
  24. oe.fit(X_train)
  25. X_train_enc = oe.transform(X_train)
  26. X_test_enc = oe.transform(X_test)
  27. return X_train_enc, X_test_enc
  28. # prepare target
  29. def prepare_targets(y_train, y_test):
  30. le = LabelEncoder()
  31. le.fit(y_train)
  32. y_train_enc = le.transform(y_train)
  33. y_test_enc = le.transform(y_test)
  34. return y_train_enc, y_test_enc
  35. # feature selection
  36. def select_features(X_train, y_train, X_test):
  37. fs = SelectKBest(score_func=chi2, k='all')
  38. fs.fit(X_train, y_train)
  39. X_train_fs = fs.transform(X_train)
  40. X_test_fs = fs.transform(X_test)
  41. return X_train_fs, X_test_fs, fs
  42. # load the dataset
  43. X, y = load_dataset('breast-cancer.csv')
  44. # split into train and test sets
  45. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
  46. # prepare input
  47. data X_train_enc, X_test_enc = prepare_inputs(X_train, X_test)
  48. # prepare output
  49. data y_train_enc, y_test_enc = prepare_targets(y_train, y_test)
  50. # feature selection
  51. X_train_fs, X_test_fs, fs = select_features(X_train_enc, y_train_enc, X_test_enc)
  52. # what are scores for the features for i in range(len(fs.scores_)):
  53. print('Feature %d: %f' % (i, fs.scores_[i]))
  54. # plot the scores
  55. pyplot.bar([i for i in range(len(fs.scores_))], fs.scores_)
  56. pyplot.show()
复制代码



首先运行示例将打印为每个输入要素和目标变量计算的分数。

注意:您的具体结果可能会有所不同。尝试运行该示例几次。

在这种情况下,我们可以看到分数很小,仅凭数字很难知道哪个功能更相关。

也许功能3、4、5和8最相关。

  1. Feature 0: 0.472553
  2. Feature 1: 0.029193
  3. Feature 2: 2.137658
  4. Feature 3: 29.381059
  5. Feature 4: 8.222601
  6. Feature 5: 8.100183
  7. Feature 6: 1.273822
  8. Feature 7: 0.950682
  9. Feature 8: 3.699989
复制代码


创建每个输入要素的要素重要性得分的条形图。

这清楚地表明,特征3可能是最相关的(根据卡方),并且九个输入特征中的四个也许是最相关的。

在配置SelectKBest来选择这前四个功能时,我们可以设置k = 4 。

输入要素的条形图(x)vs Chi-Squared要素重要性(y)

互信息特征选择

来自信息理论领域的互信息是信息增益(通常用于决策树的构建)在特征选择中的应用。

在两个变量之间计算互信息,并在给定另一个变量的已知值的情况下测量一个变量的不确定性降低。

您可以在以下教程中了解有关相互信息的更多信息。

  • 什么是机器学习的信息获取和互信息

scikit-learn机器学习库通过commoninfoclassif()函数提供了用于信息选择的互信息实现。

像chi2()一样,它可以用于SelectKBest特征选择策略(和其他策略)中。

  1. # feature selection
  2. def select_features(X_train, y_train, X_test):
  3. fs = SelectKBest(score_func=mutual_info_classif, k='all')
  4. fs.fit(X_train, y_train)
  5. X_train_fs = fs.transform(X_train)
  6. X_test_fs = fs.transform(X_test)
  7. return X_train_fs, X_test_fs, fs
复制代码


我们可以使用关于乳腺癌组的相互信息来进行特征选择,并像上一节中那样打印和绘制分数(越大越好)。

下面列出了使用互信息进行分类特征选择的完整示例。

  1. # example of mutual information feature selection for categorical data
  2. from pandas import read_csv
  3. from sklearn.model_selection import train_test_split
  4. from sklearn.preprocessing import LabelEncoder
  5. from sklearn.preprocessing import OrdinalEncoder
  6. from sklearn.feature_selection import SelectKBest
  7. from sklearn.feature_selection import mutual_info_classif
  8. from matplotlib import pyplot
  9. # load the dataset
  10. def load_dataset(filename):
  11. # load the dataset as a pandas DataFrame
  12. data = read_csv(filename, header=None)
  13. # retrieve numpy array
  14. dataset = data.values
  15. # split into input (X) and output (y) variables
  16. X = dataset[:, :-1]
  17. y = dataset[:,-1]
  18. # format all fields as string
  19. X = X.astype(str)
  20. return X, y
  21. # prepare input data
  22. def prepare_inputs(X_train, X_test):
  23. oe = OrdinalEncoder() oe.fit(X_train)
  24. X_train_enc = oe.transform(X_train)
  25. X_test_enc = oe.transform(X_test)
  26. return X_train_enc, X_test_enc
  27. # prepare target
  28. def prepare_targets(y_train, y_test):
  29. le = LabelEncoder()
  30. le.fit(y_train)
  31. y_train_enc = le.transform(y_train)
  32. y_test_enc = le.transform(y_test)
  33. return y_train_enc, y_test_enc
  34. # feature selection
  35. def select_features(X_train, y_train, X_test):
  36. fs = SelectKBest(score_func=mutual_info_classif, k='all')
  37. fs.fit(X_train, y_train)
  38. X_train_fs = fs.transform(X_train)
  39. X_test_fs = fs.transform(X_test)
  40. return X_train_fs, X_test_fs, fs
  41. # load the dataset
  42. X, y = load_dataset('breast-cancer.csv')
  43. # split into train and test sets
  44. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
  45. # prepare input data
  46. X_train_enc, X_test_enc = prepare_inputs(X_train, X_test)
  47. # prepare output data
  48. y_train_enc, y_test_enc = prepare_targets(y_train, y_test)
  49. # feature selection
  50. X_train_fs, X_test_fs, fs = select_features(X_train_enc, y_train_enc, X_test_enc)
  51. # what are scores for the features
  52. for i in range(len(fs.scores_)):
  53. print('Feature %d: %f' % (i, fs.scores_[i]))
  54. # plot the scores
  55. pyplot.bar([i for i in range(len(fs.scores_))], fs.scores_)
  56. pyplot.show()
复制代码


首先运行示例将打印为每个输入要素和目标变量计算的分数。

注意:您的具体结果可能会有所不同。尝试运行该示例几次。

在这种情况下,我们可以看到某些功能的得分很低,表明也许可以将其删除。

也许功能3、6、2和5最相关。

  1. Feature 0: 0.003588
  2. Feature 1: 0.000000
  3. Feature 2: 0.025934
  4. Feature 3: 0.071461
  5. Feature 4: 0.000000
  6. Feature 5: 0.038973
  7. Feature 6: 0.064759
  8. Feature 7: 0.003068
  9. Feature 8: 0.000000
复制代码


创建每个输入要素的要素重要性得分的条形图。

重要的是,促进了特征的不同混合。


输入要素的条形图(x)vs互信息特征的重要性(y)

既然我们知道如何针对分类预测建模问题对分类数据执行特征选择,那么我们可以尝试使用选定的特征开发模型并比较结果。

使用选定特征建模

有许多不同的技术可用来对特征评分和根据分数选择特征。您怎么知道要使用哪个?

一种可靠的方法是使用不同的特征选择方法(和特征数量)评估模型,然后选择能够产生最佳性能的模型的方法。

在本节中,我们将评估具有所有要素的Logistic回归模型,并将其与通过卡方选择的要素和通过互信息选择的要素构建的模型进行比较。

逻辑回归是测试特征选择方法的良好模型,因为如果从模型中删除了不相关的特征,则逻辑回归性能会更好。

使用所有功能构建的模型

第一步,我们将使用所有可用功能评估LogisticRegression模型。

该模型适合训练数据集,并在测试数据集上进行评估。

下面列出了完整的示例。

  1. # evaluation of a model using all input features
  2. from pandas import read_csv
  3. from sklearn.preprocessing import LabelEncoder
  4. from sklearn.preprocessing import OrdinalEncoder
  5. from sklearn.model_selection import train_test_split
  6. from sklearn.linear_model import LogisticRegression
  7. from sklearn.metrics import accuracy_score
  8. # load the dataset def load_dataset(filename):
  9. # load the dataset as a pandas DataFrame
  10. data = read_csv(filename, header=None)
  11. # retrieve numpy array
  12. dataset = data.values
  13. # split into input (X) and output (y) variables
  14. X = dataset[:, :-1]
  15. y = dataset[:,-1]
  16. # format all fields as string
  17. X = X.astype(str)
  18. return X, y
  19. # prepare input data
  20. def prepare_inputs(X_train, X_test):
  21. oe = OrdinalEncoder()
  22. oe.fit(X_train)
  23. X_train_enc = oe.transform(X_train)
  24. X_test_enc = oe.transform(X_test)
  25. return X_train_enc, X_test_enc
  26. # prepare target def prepare_targets(y_train, y_test):
  27. le = LabelEncoder()
  28. le.fit(y_train)
  29. y_train_enc = le.transform(y_train)
  30. y_test_enc = le.transform(y_test)
  31. return y_train_enc, y_test_enc
  32. # load the dataset
  33. X, y = load_dataset('breast-cancer.csv')
  34. # split into train and test sets
  35. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
  36. # prepare input data
  37. X_train_enc, X_test_enc = prepare_inputs(X_train, X_test)
  38. # prepare output data
  39. y_train_enc, y_test_enc = prepare_targets(y_train, y_test)
  40. # fit the model
  41. model = LogisticRegression(solver='lbfgs')
  42. model.fit(X_train_enc, y_train_enc)
  43. # evaluate the model
  44. yhat = model.predict(X_test_enc)
  45. # evaluate predictions accuracy = accuracy_score(y_test_enc, yhat)
  46. print('Accuracy: %.2f' % (accuracy*100))
复制代码


运行示例将在训练数据集上打印模型的准确性。

注意:根据学习算法的随机性,您的特定结果可能会有所不同。尝试运行该示例几次。

在这种情况下,我们可以看到该模型实现了约75%的分类精度。

我们宁愿使用能够实现比此更好或更高的分类精度的功能子集。

Accuracy: 75.79

使用卡方特征构建的模型

我们可以使用卡方检验对特征进行评分并选择四个最相关的特征。

下面的select_features()函数已更新以实现此目的。

  1. # feature selection
  2. def select_features(X_train, y_train, X_test):
  3. fs = SelectKBest(score_func=chi2, k=4)
  4. fs.fit(X_train, y_train)
  5. X_train_fs = fs.transform(X_train)
  6. X_test_fs = fs.transform(X_test)
  7. return X_train_fs, X_test_fs
复制代码


下面列出了使用这种特征选择方法评估逻辑回归模型拟合和对数据进行评估的完整示例。

  1. # evaluation of a model fit using chi squared input features
  2. from pandas import read_csv
  3. from sklearn.preprocessing import LabelEncoder
  4. from sklearn.preprocessing import OrdinalEncoder
  5. from sklearn.feature_selection import SelectKBest
  6. from sklearn.feature_selection import chi2
  7. from sklearn.model_selection import train_test_split
  8. from sklearn.linear_model import LogisticRegression
  9. from sklearn.metrics import accuracy_score
  10. # load the dataset
  11. def load_dataset(filename):
  12. # load the dataset as a pandas DataFrame
  13. data = read_csv(filename, header=None)
  14. # retrieve numpy array
  15. dataset = data.values
  16. # split into input (X) and output (y) variables
  17. X = dataset[:, :-1] y = dataset[:,-1]
  18. # format all fields as string
  19. X = X.astype(str)
  20. return X, y
  21. # prepare input data
  22. def prepare_inputs(X_train, X_test):
  23. oe = OrdinalEncoder()
  24. oe.fit(X_train)
  25. X_train_enc = oe.transform(X_train)
  26. X_test_enc = oe.transform(X_test)
  27. return X_train_enc, X_test_enc
  28. # prepare target
  29. def prepare_targets(y_train, y_test):
  30. le = LabelEncoder()
  31. le.fit(y_train)
  32. y_train_enc = le.transform(y_train)
  33. y_test_enc = le.transform(y_test)
  34. return y_train_enc, y_test_enc
  35. # feature selection
  36. def select_features(X_train, y_train, X_test):
  37. fs = SelectKBest(score_func=chi2, k=4)
  38. fs.fit(X_train, y_train)
  39. X_train_fs = fs.transform(X_train)
  40. X_test_fs = fs.transform(X_test)
  41. return X_train_fs, X_test_fs
  42. # load the dataset
  43. X, y = load_dataset('breast-cancer.csv')
  44. # split into train and test sets
  45. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
  46. # prepare input data
  47. X_train_enc, X_test_enc = prepare_inputs(X_train, X_test)
  48. # prepare output data
  49. y_train_enc, y_test_enc = prepare_targets(y_train, y_test)
  50. # feature selection
  51. X_train_fs, X_test_fs = select_features(X_train_enc, y_train_enc, X_test_enc)
  52. # fit the model
  53. model = LogisticRegression(solver='lbfgs')
  54. model.fit(X_train_fs, y_train_enc)
  55. # evaluate the model yhat = model.predict(X_test_fs)
  56. # evaluate predictions
  57. accuracy = accuracy_score(y_test_enc, yhat)
  58. print('Accuracy: %.2f' % (accuracy*100))
复制代码


运行示例将报告使用卡方统计量选择的九个输入要素中只有四个要素的模型性能。

注意:根据学习算法的随机性,您的特定结果可能会有所不同。尝试运行该示例几次。

在这种情况下,我们看到该模型的准确度约为74%,性能略有下降。

实际上,某些已删除的功能可能会直接增加价值,或者与所选功能一致。

在这个阶段,我们可能更喜欢使用所有输入功能。

Accuracy: 74.74

使用互信息功能构建的模型

我们可以重复实验,并使用相互信息统计量选择前四个功能。

下面列出了实现此目的的select_features()函数的更新版本。

  1. # feature selection
  2. def select_features(X_train, y_train, X_test):
  3. fs = SelectKBest(score_func=mutual_info_classif, k=4)
  4. fs.fit(X_train, y_train)
  5. X_train_fs = fs.transform(X_train)
  6. X_test_fs = fs.transform(X_test)
  7. return X_train_fs, X_test_fs
复制代码


下面列出了使用互信息进行特征选择以拟合逻辑回归模型的完整示例。

  1. # evaluation of a model fit using mutual information input features
  2. from pandas import read_csv
  3. from sklearn.preprocessing import LabelEncoder
  4. from sklearn.preprocessing import OrdinalEncoder
  5. from sklearn.feature_selection import SelectKBest
  6. from sklearn.feature_selection import mutual_info_classif
  7. from sklearn.model_selection import train_test_split
  8. from sklearn.linear_model import LogisticRegression
  9. from sklearn.metrics import accuracy_score
  10. # load the dataset
  11. def load_dataset(filename):
  12. # load the dataset as a pandas DataFrame
  13. data = read_csv(filename, header=None)
  14. # retrieve numpy array
  15. dataset = data.values
  16. # split into input (X) and output (y) variables
  17. X = dataset[:, :-1]
  18. y = dataset[:,-1]
  19. # format all fields as string
  20. X = X.astype(str)
  21. return X, y # prepare input data
  22. def prepare_inputs(X_train, X_test):
  23. oe = OrdinalEncoder()
  24. oe.fit(X_train)
  25. X_train_enc = oe.transform(X_train)
  26. X_test_enc = oe.transform(X_test)
  27. return X_train_enc, X_test_enc
  28. # prepare target
  29. def prepare_targets(y_train, y_test):
  30. le = LabelEncoder()
  31. le.fit(y_train)
  32. y_train_enc = le.transform(y_train)
  33. y_test_enc = le.transform(y_test)
  34. return y_train_enc, y_test_enc
  35. # feature selection
  36. def select_features(X_train, y_train, X_test):
  37. fs = SelectKBest(score_func=mutual_info_classif, k=4)
  38. fs.fit(X_train, y_train)
  39. X_train_fs = fs.transform(X_train)
  40. X_test_fs = fs.transform(X_test)
  41. return X_train_fs, X_test_fs
  42. # load the dataset
  43. X, y = load_dataset('breast-cancer.csv')
  44. # split into train and test sets
  45. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
  46. # prepare input data
  47. X_train_enc, X_test_enc = prepare_inputs(X_train, X_test)
  48. # prepare output data y_train_enc, y_test_enc = prepare_targets(y_train, y_test)
  49. # feature selection
  50. X_train_fs, X_test_fs = select_features(X_train_enc, y_train_enc, X_test_enc)
  51. # fit the model
  52. model = LogisticRegression(solver='lbfgs')
  53. model.fit(X_train_fs, y_train_enc)
  54. # evaluate the model
  55. yhat = model.predict(X_test_fs)
  56. # evaluate predictions
  57. accuracy = accuracy_score(y_test_enc, yhat)
  58. print('Accuracy: %.2f' % (accuracy*100))
复制代码

运行示例使模型适合于使用互信息选择的前四个精选功能。

注意:根据学习算法的随机性,您的特定结果可能会有所不同。尝试运行该示例几次。

在这种情况下,我们可以看到分类精度小幅提升至76%。

为了确保效果是真实的,最好将每个实验重复多次并比较平均效果。探索使用k倍交叉验证而不是简单的训练/测试拆分也是一个好主意。

阅读更多精彩信息:

2020年聊天机器人将走向何方?-AIU人工...数据科学

AI人工智能是职业杀手还是工作创造者?人工智能

老码农的「锦囊」:10个编程技巧、5个纠错步...数据科学

大批金融从业者会在未来10年被AI取代?!转...数据科学

当谈论机器学习中的公平公正时,我们该谈论些什...机器学习

管轶团队重磅研究:走私穿山甲中发现冠状病毒,...数据科学

Excel狂魔?单元格做计算机视觉:人脸检测...数据科学

2020年,图机器学习将走向何方?机器学习

疫情之下,这是你也能上手的Python新冠病...数据科学

最大规模新冠临床研究:近9000个病例,男性...数据科学

机器学习背后,你不能不知道的数学核心概念数据科学

一个喷嚏就能传播病毒?关于病毒,还有多少是你...数据科学

破冰方案!焦虑有啥用?VIP会员2020,全...数据科学

什么是预测分析,其应用行业都有哪些?数据科学

5G时代下,AI人工智能扮演何种关键角色?人工智能

如何用python在工作中“偷懒”?人工智能

一文讲解机器学习算法中的共线性问题机器学习

数据科学家的高级进修:学会如何“讲故事”数据科学

数据分析实践入门(一):数据预处理数据科学

数据分析师的核心竞争力在哪里?数据科学

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
zgs3721 发表于 2020-3-10 19:07:35
谢谢分享

藤椅
三江鸿 发表于 2022-10-29 22:09:55 来自手机
点个赞加点人气
感谢分享

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-31 14:34