楼主: 时光永痕
421 0

[数据挖掘新闻] 您应该了解机器学习项目的工具 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

47%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
您应该了解机器学习项目的工具
经常有人问我有关Machine Learnign项目的工具,市场上有很多,所以在我的最新文章中,您会发现我对它们的看法。我想开始我的第一个机器学习项目。但是我没有工具。我该怎么办?我可以使用哪些工具?
我将根据我使用的工具箱为您提供一些提示和建议。当然,还有更多很棒的工具,但是您应该选择自己喜欢的工具。您还应该使用使您的工作高效的工具,这意味着您需要为它们付费(这并非总是如此-我也使用免费工具)。
首先也是最重要的是,有很多选择!只要选择最适合您的!
我已将这篇文章分为几个部分,例如环境,语言和库。
环境
关于选择哪种环境的决定实际上是至关重要的。我曾经拥有三个环境,并根据需要使用它们。我喜欢的第一个和第一个是Anaconda。它是具有许多工具的企业数据科学平台。它也是为数据科学家,IT专业人员和业务负责人设计的。您可以为项目配置它,使其仅包含所需的工具和库。这可以使您的部署更加容易(我并不是说会很容易)。
Anaconda –主页和工具
创建环境非常容易!当然,假设您知道自己需要什么,但是以后也可以重新配置环境。我了解像项目这样的环境。
Anaconda环境
Anaconda还提供了“学习”门户的快捷方式,您不仅可以找到文档,还可以找到许多有用的材料,例如视频或博客文章。这确实是学习如何开始使用工具或获得更多知识的好地方
水蟒学习
我想在这里显示的最后一件事是Anaconda社区选项卡。社区确实使我们的生活更加轻松。您可以分享想法或学习,也可以提出问题。作为#SQLFamily社区的骄傲成员,我知道我在说什么…该社区是所有学习过程的核心,因此请不要忘记参与并分享您的知识!
Anaconda社区选项卡
顺便说一句,您可以安装MiniConda(Anaconda的最小安装)并从命令行安装其他所有内容,如我在此处所示:
Cmd
Cd documents
Md project_name
Cd project_name
Conda create --name project_name
Activate project_name
Conda install --name project_name spyder
我对上面的代码做了什么?我从cmd工具开始,然后在documents文件夹中创建了一个名为project_name的新项目。然后,我创建了一个环境并激活了它。最后一行显示了如何安装库或工具的示例–我已经显示了如何安装Spyder。
我使用Jupyter Notebook和其他工具(橙色,Spyder等)进行建模。Jupyter Notebooks与其他工具相比的优势在于,您可以编写代码并立即运行它,而无需编译任何内容。看起来不错,不是吗?这还不是全部,因为我一直喜欢记录我的代码,这就是您可以在此处完成的工作。看看下面的图片-代码和文档和平地生活着logether!
Jupyer Notebook在行动
现在,让我们继续到Visual Studio Code。自从Visual Studio首次发布以来,我就一直在使用它。对于许多项目,包括机器学习和AI,Visual Studio Code只是我的自然选择,您不会感到惊讶。
Visual Studio Code每月发布一次,这使该产品独树一帜。
您可以按照需要的方式自定义Visual Studio代码-只需安装所有扩展并开始使用该代码即可。
Visual Studio代码–我安装的扩展
但这并不是全部。有了Visual Studio Code,您还将拥有功能强大的调试器,智能感知(!!!!)和内置的Git。
适用于机器学习的Visual Studio Code智能感知项目
那么Visual Studio Code社区呢?是的,只有一个!它还功能强大,因此您不会迷路,并在需要时获得帮助。
我要介绍的最后一个工具是Azure Machine Learning Studio。这是一个图形工具,完全不需要任何编程知识。您需要登录到Azure门户并创建一个机器学习工作区。  
机器学习工作室工作区
开发人员有一个免费版本,因此您可以立即开始。我建议您从图库中的示例开始。看看我刚刚在Studio中挑选并打开的那张照片:
机器学习工作室
如您所见,Machine Learning Studio更面向机器学习过程(请参阅我最近的文章)而不是编码。当然,您也可以在其中添加任意数量的代码。
语言
我更喜欢使用Python,但范围内还有R语言。我看到的是R语言主要是大学里的人们使用的,而Pyhon是数据工程师和程序员使用的。这是通常的样子,但我没有做任何假设。请使用您喜欢的语言,并使用舒适的编码。我将在博客上同时使用它们。
Python和R都是强大的语言。他们可以轻松地处理数据集并对其执行复杂的操作。
等等,您知道其他任何可以处理数据集的语言吗?是的-这是很好的旧T-SQL!我认为您至少应该知道SQL Server可以将T-SQL,Python和R混合使用!您可以使用SQL Server创建功能强大的机器学习和AI解决方案,稍后我将向您展示如何做到这一点!
图书馆
现在,我们进入机器学习建模的核心。这些库可为您提供所需的一切。您可以准备数据集,清理,标准化,执行正则化,选择算法,创建学习/测试拆分,学习模型,执行评分,绘制数据等等。
决定使用哪个库非常重要。该决定还取决于您使用的语言,因为库无法在Python和R之间转移。
我将在下面描述一些知名的(免费的)库,但是在接下来的文章中,我们将讨论代码本身,我们将进一步了解它们。
潘达斯
这是最流行的数据加载和准备库之一。它经常与Scikit学习一起使用。它支持从不同的资源(例如SQL数据库,平面文件(文本,csv,json,xml,Excel)等)加载数据。它可以执行类似SQL的操作,例如连接,分组,聚合,整形等。您还可以清理数据集以执行转换并处理缺失的值。
编号
这都是关于多维数组和矩阵的,它用于线性代数运算。它是pandas nad scikit-learn的核心组件。
学会学习
该库是当今最受欢迎的库之一。您可以找到很多有监督和无监督的学习算法,例如聚类,线性和逻辑回归,梯度提升,SVM,朴素贝叶斯,k均值等。
它还为数据预处理和评分提供了有用的功能。
您不应将其用于神经网络,因为它是为机器学习而设计的。
火炬
这是Facebook构建的深度学习库。它支持CPU和GPU计算。它可以帮助您解决深度学习领域的问题,例如医学图像分析,推荐系统,生物信息学,图像恢复等。
PyTorch提供了诸如交互式调试和动态图定义之类的功能。
张力流
它是由Google构建的。这是机器学习和深度学习库。它支持许多用于分类和回归分析的机器学习算法。最大的好处是它还支持深度学习任务。
卡拉斯
这是一个流行的高级深度学习库,在后端使用了各种低级库,例如Tensorflow,CNTK或Theano。它应该比Tensorflow更容易学习,并且可以在后台使用Tensorflow(例如PyTorch不能做到的)。
XGBOOST
该库在Gradient Boosting框架下实现算法。它提供了并行树增强(也称为GBDT,GBM),可快速,准确地解决许多数据科学问题。
威卡
在测试关联规则的工作方式时,我在R代码中使用了Weka库。但是它是一个功能强大的库,用于数据准备和许多类型的算法,例如分类,回归。它还可以进行聚类并执行可视化。
马兜铃 和海产
这两个库用于数据可视化。它们易于使用,可帮助您使用非常基本和非常复杂的图。您不再需要成为艺术家或才华横溢的编码人员,即可制作Beatufil可视化文件。
关于云解决方案?
现在,一切都生活在云中。机器学习解决方案也是如此。您可以选择许多云提供商,但是我将在Microsoft Azure上展示我的大多数云解决方案。您需要开始的一切。您可以从头开始,逐步构建解决方案,逐步控制一切。但是您也可以使用所谓的自动机器学习(是的,我向您展示了两种方法!)来专注于解决方案而不是信息结构。考虑一下这种功能有多强大-您可以在一个统一的解决方案中开发一个模型,Azure会为您部署它!
摘要
现在您知道了这些工具–环境,语言和库。我们可以前进到机器学习。下一篇文章将致力于一个非常简单但功能强大的机器学习解决方案示例。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 scikit-learn documents Microsoft Notebook

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 10:32