楼主: 时光永痕
907 0

[数据挖掘新闻] Kaggle的Rachel Tatman关于应用深度学习时该怎么做是过分的 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

1%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-9-4 19:11:46 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Kaggle的Rachel Tatman关于应用深度学习时该怎么做是过分的
深度学习是机器学习的新兴分支,在过去十年中,它已在技术领域获得了很多认可。它被认为是AI的游戏规则改变者,在计算机视觉,自然语言处理(NLP),语音和其他机器学习领域都取得了显着进步。今年,Indeed一项调查发现,“深度学习工程师”是美国技术职位上最好的工作。
尽管深度学习有很多好处,并且拥有非常诱人的业绩记录,但并不是每个人都能负担得起深度学习。它具有一些缺点,例如需要大量数据,过于昂贵以及计算时间长。以下是Rachael Tatman在PyCon 2019大会上探讨深度学习问题的演讲的分解,该演讲是``停止深度学习:何时不使用神经网络以及应该做什么''。Tatman是Kaggle的数据科学倡导者。
深度学习模型需要大量数据,才能比其他技术更好地执行。而且,根据Tatman的说法,仅深度学习中的简单图像生成模型的计算就需要约60
随着讨论的进行,Tatman提供了可用于代替深度学习的三种不同类型的模型的列表。提出的三个模型是基于回归的模型,基于树的模型和基于距离的模型。让我们简要地看一下下面的每个:
最能解释的:基于回归的模型
与深度学习不同,基于回归的模型的最大优点是它对问题有“充分的原则”理解,并提供了多种回归模型。用户可以简单地浏览流程图并为他们的数据决定最佳的回归模型类型。
回归模型的其他一些优势包括其“快速拟合”功能。这意味着与神经网络相比,它的拟合速度要快得多,尤其是“如果您使用的是优化良好的库,Python回归库往往会有很大差异,因此您可能需要花点时间购物” 。Tatman确认她已经处理了八打数据点,因此它也适用于小数据。她补充说,由于回归模型易于解释,因此她能够从数据中学到许多有用和有趣的东西。
回归模型的一些缺点是比其他方法需要更多的数据准备。它们也需要验证,因为回归模型是基于有关数据点分布或误差分布的强大假设。
塔特曼还宣称,如果她在余生中使用单一的机器学习模型,那将是一个混合效应回归模型。混合效应模型是对数据进行线性回归模型的扩展,这些数据按组收集和汇总。它主要用于确定目标人群的期望值或平均值。她认为,“您需要做更多的动手操作,需要进行验证,可能还需要进行一些其他的数据清理工作,”但是,只需花费一些时间就可以用更少的时间进行大量的计算。金钱和数据。
想更多地了解回归?
在基于回归的模型中有这么多好处,您绝对应该尝试一下回归模型。阅读 刘禹锡(Hayden)撰写的《 Python机器学习实例学习》一书,以了解回归算法及其评估。您还可以通过此基于示例的实用指南,掌握使用其他模型(例如支持向量机和文本分析算法)构建自己的机器学习系统的技巧。
用户友好:基于树的模型
基于树的模型的工作原理类似于决策树。它检查每个节点的功能,并根据该功能的值,用户可以确定要遵循的路径。沿着特定路径行驶时,它将再次检查具有功能的节点。通过这种方式,它可以递归地将决策区域切成较小的块。Tatman还通知开发人员通常选择森林模型,而不是基于树的模型。随机森林是一个集成模型,它将许多不同的决策树组合到一个模型中。
Per Tatman:“如果您是机器学习社区的人,您实际上可能会将随机森林与kaggle相关联,并且从2010年到2016年,所有kaggle竞赛获胜者中约有三分之二使用了随机森林。” 另一方面,“不到一半的人使用某种形式的深度学习,今天随机森林仍然表现良好。”
在对数据进行分类的情况下,随机森林比逻辑回归具有更好的性能。它还不需要大量数据清理或模型验证。随机森林也不需要用户转换分类变量,它只是接受值并提供相应的输出。它还支持许多易于使用的软件包,例如XG boost,LightGBM,CatBoost等。简而言之,回归树是最用户友好的模型,尤其是在进行分类时。
树木/随机森林的缺点是它们容易过拟合,也对数据集之间的差异更加敏感。与回归模型相比,它的解释性较差,并且需要更多的计算和训练时间。因此,基于树的模型需要很少的资金,但确实需要一些数据和时间来训练大数据集。
最轻巧:基于距离的模型
在最后一种类型中,Tatman使用了一种通用符号将一大堆方法组合在一起,例如K最近邻,高斯混合模型和支持向量机。这些模型的基本思想是“在特定要素空间中相互靠近的点更有可能在同一组中。”
K最近邻居模型根据最近的多数邻居确定点的值。高斯混合模型利用由不同高斯混合而成的分布点的任何分布。支持向量模型尝试尽可能远离所有数据点。
基于距离的模型,特别是支持向量模型,在较小的数据集上非常有效。在相同数据上,它们的训练速度也往往比回归模型快10倍。在准确性方面,基于距离的模型落后于其他模型,但是在快速而肮脏的建模情况下,它们的性能会更好。它们擅长数据分类,但与基于回归的模型相比要慢一些。因此,基于距离的模型花费的时间很少,所需的金钱也很少,并且非常轻巧。
总而言之,塔特曼说,一个人的模式的选择应该取决于个人或组织所拥有的时间和金钱的种类。同样,选择模型的最关键点取决于其性能。Tatman补充说:“基于经验证据,现在看来,深度学习将在给定的数据集上有足够的时间和计算能力,从而在最佳数据集上表现最佳。” 观看Tatman的完整演讲,详细了解这三种模型。
您可以从Liu Yuxi(Hayden)撰写的“示例Python机器学习”一书中了解有关上述所有机器学习模型的更多信息。这本书将帮助您从头开始在Python中实现机器学习分类和回归算法。另外,从我们的书中了解如何为您的应用程序优化机器学习模型的性能。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:kaggle 深度学习 怎么做 Man ATM

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-5 20:36