楼主: 时光永痕
786 0

[数据挖掘新闻] 如何为初学者制作机器学习模型 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

40%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如何为初学者制作机器学习模型
数据科学是21世纪最热门的主题之一,因为我们生成数据的速度远远高于实际处理速度。现在,许多商业和科技公司都在利用关键优势,以利用数据科学的优势。因此,目前的数据科学确实正在蓬勃发展。
在这个博客中,我们将深入研究机器学习的世界。我们将引导您学习机器学习的基础知识,并了解构建ML模型的过程。我们还将在python中建立一个随机森林模型,以简化理解过程。
什么是机器学习?
机器学习是一门科学,它使计算机像人类一样学习和行动,并通过观察和真实交互的形式向计算机提供数据和信息,从而随着时间的推移以自主方式改善其学习。
机器学习算法有很多不同的类型,每天都会发布数百种算法,并且通常按学习方式(即监督学习,无监督学习,半监督学习)或形式或功能相似(即分类,回归,决策树,聚类,深度学习等)。无论学习方式或功能如何,机器学习算法的所有组合均包括以下内容:
表示形式(一组分类器或计算机可以理解的语言)
评估(又称目标/评分功能)
优化(搜索方法;例如,得分最高的分类器;既有现成的优化方法又有自定义的优化方法)
建立ML模型的步骤
这是医院如何使用机器学习来改善患者预后和投资回报率的分步示例:
1.定义项目目标
生命周期的第一步是确定机会,切实改善运营,提高客户满意度或创造价值。在医疗行业中,出院患者有时会出现必须返回医院的状况。这些再次入院除了对患者造成危险和麻烦之外,还意味着医院将花费更多的时间和资源来第二次治疗患者。
2.采集和浏览数据
下一步是收集并准备所有相关数据以供机器学习使用。这意味着要咨询医学领域的专家,以确定哪些数据可能与预测再入院率有关,从历史患者记录中收集该数据并将其转换为适合分析的格式,最有可能转换为诸如.csv的平面文件格式。
3.模型数据
为了通过机器学习从数据中获得洞察力,您必须确定目标变量,您正在尝试对该目标变量进行更深入的了解。在这种情况下,医院将选择“重新接纳”,这是其在数据收集期间的历史数据集中的一项功能。然后,他们将在数据集上运行机器学习算法,以建立模型,以示例方式从历史数据中学习。最终,医院在尚未经过训练的数据上运行经过训练的模型,以预测是否有可能再次接纳新患者,从而使其能够做出更好的患者护理决策。
4.解释和沟通
机器学习项目中最困难的任务之一是向没有任何数据科学背景的人们解释模型的结果,尤其是在医疗保健等高度管制的行业中。传统上,机器学习被认为是“黑匣子”,因为解释见解并将其价值传达给利益相关者和监管机构非常困难。您的模型越容易解释,就越容易满足监管要求并将其价值传达给管理层和其他关键利益相关者。
5.实施,记录和维护
最后一步是实施,记录和维护数据科学项目,以便医院可以继续利用和改进其模型。模型部署通常会带来问题,因为它需要编码和数据科学方面的经验,并且从周期开始到使用传统数据科学方法的实现时间都非常长。
问题陈述
某汽车制造公司X希望针对其特定汽车模型的客户。通过年龄,薪水和性别来识别客户。该组织希望确定或预测哪些客户会影响其新车的销售并实际购买。
我们这里有一个购买列,其中包含两个值,即0和1。0表示该汽车尚未被某个人购买。1表示汽车的销售。
代码实施
导入所需的库
您需要首先导入所有必需的库,这将简化我们的模型构建部分。我们正在使用keras构建随机森林模型。我们正在使用matplotlib库来绘制图表和图形并可视化结果。最后,我们还将从sklearn模块导入功能,这些功能可以帮助我们将数据分为训练和测试部分
1
2
3
4
5
6
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
加载数据集
在此步骤中,您需要将数据集加载到内存中。之后,我们分离出因变量和自变量来训练分类器。在大多数情况下,您需要将因变量和自变量分开
1
2
3
4
# Importing the dataset
dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:
y = dataset.iloc[:
将数据集拆分为表单训练和测试数据
在所有情况下,您都需要在数据中进行一些分区。您的主要数据块充当训练集,而较小的数据块充当测试集。关于培训和测试集的比例,没有明确定义的标准。但是大多数人遵循70–30或75–25规则,其中较大的一块是您的训练集。我们在训练集上训练数据,并在测试集上对其进行测试。此过程称为验证。此目的的主要思想是需要根据模型从未见过的数据来评估模型的性能。在现实世界中,模型将根据看不见的数据预测值。此外,诸如验证之类的技术可以帮助我们避免模型过度拟合或拟合不足。
过度拟合是指我们的模型已经了解了所有关于其训练的特定数据的情况。它将在训练数据上很好地工作,但是对于任何看不见的数据点,准确性都将很差。过度拟合就像您的模型非常特定于它所拥有的数据,并且没有通用性。同样,拟合不足的情况是您的模型非常笼统,无法针对您的特定用例进行良好的预测。为了获得最佳的模型精度,您需要在过度拟合和欠拟合之间取得完美的平衡。
1
2
3
# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train
标准化数据集值
1
2
3
4
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
拟合随机森林分类器
在这种情况下,我们将模型与训练数据拟合。我们正在使用python的sklearn包公开的随机森林模型。最终,我们分别传递依赖和独立特征,通过这些特征,我们的模型使用数学系数在它们之间进行内部映射。
1
2
3
4
# Fitting Random Forest Classification to the Training set
from sklearn.ensemble import RandomForestClassifier
classifier = RandomForestClassifier(n_estimators = 10
classifier.fit(X_train
从分类器预测结果
在这一部分中,我们将看不见的值传递给模型进行预测的模型。我们使用混淆矩阵来得出模型的准确性,准确性和召回率等指标。这些指标有助于我们了解模型的性能。
1
2
3
4
5
6
# Predicting the Test set results
y_pred = classifier.predict(X_test)
# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test
可视化预测
此外,我们尝试使用以下代码来可视化模型的预测。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# Visualising the Test set results
# Visualising the Test set results
from matplotlib.colors import ListedColormap
X_set
X1
                     np.arange(start = X_set[:
plt.contourf(X1
             alpha = 0.75
plt.xlim(X1.min()
plt.ylim(X2.min()
for i
    plt.scatter(X_set[y_set == j
                c = ListedColormap(('red'
plt.title('Random Forest Classification (Test set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()
概要
因此,在本机器学习教程中,我们研究了ML的基础。较早的机器学习是计算机无需编程即可执行特定任务即可学习的理论。但是现在,对人工智能感兴趣的研究人员希望了解计算机是否可以从数据中学习。他们从以前的计算中学到了可靠的决策和结果。这是一门不新鲜的科学,但正在获得新的动力。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 初学者 randomForest classifier Matplotlib

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 17:59