楼主: 时光永痕
781 0

[数据挖掘新闻] 练习“无代码”数据科学 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

39%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
练习“无代码”数据科学
我们正在进入“无代码”时代的数据科学实践的新阶段。像所有重大变化一样,这一运动并未如雨后春笋般涌现,但如今运动机芯已经足够大,其势头显而易见。这是您需要知道的。
我们正在进入“无代码”时代的数据科学实践的新阶段。像所有重大变化一样,这一运动并未如雨后春笋般涌现,但如今运动机芯已经足够大,其势头显而易见。
几乎只有一周的时间,我们还没有了解到一些新的自动化/无代码功能的引入。有时,这些是具有集成产品的新创业公司。它们通常是现有分析平台供应商添加的功能或模块。
自从它们出现以来,我一直在关注这些自动机器学习(AML)平台。我在2016年春季首次写了一些有关它们的文章,标题有些吓人,“到2025年数据科学家将自动失业”!”。
当然,这从来不是我的预料,但是在过去的2?年中,自动化功能在我们行业中的普及程度惊人。
无代码数据科学
无代码数据科学或自动化机器学习,或者正如Gartner尝试将其打上烙印一样,“增强型”数据科学提供了连续的易用性。这些范围包括:
指导平台:具有高度指导的建模过程的平台(但仍然需要用户逐步执行这些步骤(例如BigML,SAS,Alteryx),经典的拖放式平台是这一代的基础。
自动化机器学习(AML):全自动机器学习平台(例如DataRobot)。
会话分析:在最后一个版本中,用户仅用通用英语提出要解决的问题,并且平台提供最佳答案,选择数据,功能,建模技术,甚至可能提供最佳数据可视化。
该列表还很好地描述了开发时间表。引导平台现在已经过时了。AML平台正在变得越来越成熟。会话分析才刚刚开始。
不仅仅用于高级分析
我们工具的这种智能扩展已超出了预测/说明性建模的范围,扩展到了数据混合和准备领域,甚至扩展到了数据可视化领域。这意味着经典的BI业务分析人员可以使用无代码智能功能,当然,还可以为用户LOB经理(又称为Citizen Data Scientists)提供强大的功能。
这种发展的市场驱动因素是众所周知的。在高级分析和AI中,这是关于短缺,成本和获得足够的熟练数据科学家的问题。在这个领域中,需要时间进行洞察,提高效率和保持一致性。本质上说,事半功倍。
但是,在数据准备,混合,特征识别领域(这对数据科学家也很重要)中,真正的吸引力在于更大的数据分析师/ BI从业者世界。在这个世界上,传统静态数据的ETL仍然是巨大的负担和时间延迟,并且正从IT专家职能迅速转变为自助服务。
一切老是新
当我在2001年左右开始从事数据科学工作时,SAS和SPSS成为主要参与者,并且已经从其专有代码转向拖放操作(这种自动化的最早形式)。  
7或8年后的学术界向R语言教学的过渡似乎在财务上受到了推动,尽管SAS和SPSS基本上为学生提供了免费访问权,但他们仍向教师收费,尽管学术折扣很大。R是免费的。
然后,我们退回到一个时代,一直持续到今天,成为一名数据科学家意味着从事代码工作。这就是当前的数据科学家的教学方式,并且可以预期的是,他们的实践方式。
还有一个不正确的偏见,即在拖放系统中工作不允许代码允许的细粒度超参数调整。如果您曾经在SAS Enterprise Miner或其竞争对手中工作过,您就会知道这是不正确的,实际上,微调变得更加容易。
在我看来,这总是回到不必要的仅编码的旧时代,这往往会使新的从业人员失去对基础知识的关注,并使它看起来像是另一门掌握的编程语言。因此,我既欢迎又期望这种方法返回到从业者之间既快速又一致的程序。
模型质量怎么样
我们倾向于将高级分析中的“胜利”视为提高模型的准确性。有一种看法认为,依靠自动化的无代码解决方案会放弃这种准确性。这不是真的
AutoML平台(例如DataRobot,Tazi.ai和OneClick.ai(以及许多其他工具))不仅并行运行数百种模型类型(包括超参数的变体),而且还执行转换,特征选择甚至某些特征工程。您不可能纯粹以准确性击败这些平台之一。
需要注意的是,应用于要素工程的领域专业知识仍然是人类的优势。
也许更重要的是,当我们谈论第二个或第三个数据点的准确性变化时,与这些AutoML平台提供的几天甚至几小时相比,您花在开发上的数周时间是否是一个很好的成本折衷方案?
无代码的广泛影响
在我看来,无代码的最大受益者实际上是经典数据分析师和LOB经理,他们仍然最专注于BI静态数据。独立的数据混合和准备平台对于该组(以及工作量大大减轻的IT部门)是一个巨大的好处。
这些无代码数据准备平台(如ClearStory Data,Paxata和Trifacta)正在迅速发展,以将ML功能整合到其流程中,以帮助用户选择适合混合的数据源,数据项的实际含义(使用更多临时资源)。缺少好的数据字典),甚至扩展到要素工程和要素选择。
现代数据准备平台例如使用嵌入式ML进行智能自动化清洗或离群值处理。
Gartner刚刚将其评为“五家酷公司”之一的Octopai等其他公司则致力于通过使用机器学习和模式分析来确定不同数据元素之间的关系(数据所处的上下文),使用户能够通过自动化快速找到可信赖的数据。创建,以及数据的先前使用和转换。
这些平台还可以通过执行权限并保护PID和其他类似敏感数据来实现安全的自助服务。
甚至是数据可视化领导者Tableau都在使用NLP和其他ML工具推出会话分析功能,以允许用户以纯英文提出查询并返回最佳可视化效果。
这实际上对数据科学家意味着什么
Gartner认为,到2020年,两年内,公民数据科学家将在其产生的高级分析的数量和价值方面超过数据科学家。他们提出,数据科学家将转而专注于特殊问题,并将企业级模型嵌入到应用程序中。
我不同意。这似乎可以让数据科学家摆脱质量保证和实施的角色。那不是我们签约的目的。
我的看法是,由于较小的数据科学家小组能够处理越来越多的项目,因此这将迅速将高级分析的应用越来越深地扩展到组织中。
仅仅一到两年,我们就已经出现了,数据科学家最重要的技能包括混合和清理数据,以及为任务选择正确的预测算法。这些是增强/自动无代码工具正在接管的领域。
必须创建,监视和管理成百上千种模型的公司最早采用,特别是保险和金融服务。
那是什么假 它离开了分析翻译的高级职位。这就是麦肯锡最近确定的在任何数据科学计划中最重要的角色。简而言之,Analytics Translator的工作是:
领导机会识别,先进的分析可以发挥作用。
促进优先考虑这些机会的过程。
经常担任项目的项目经理。
积极倡导在整个企业中采用这些解决方案,并促进具有成本效益的扩展。
换句话说,将业务问题转化为数据科学项目,并导致量化各种风险和回报,从而可以优先考虑这些项目。
人工智能呢?
是的,甚至我们在CNN和RNN方面在图像,文本和语音方面的最新进展也已迅速作为自动无代码解决方案推出。而且它不能足够快地进行,因为具有深度学习技能的数据科学家的短缺甚至比我们更普通的从业者还要严重。
微软和谷歌都在去年推出了自动化深度学习平台。这些都是从迁移学习开始的,但将走向完整的AutoDL。和Google的类似条目Cloud AutoML。
还有许多启动集成的AutoDL平台。我们在今年初审查了OneClick.AI。它们包括完整的AutoML和AutoDL平台。Gartner最近被提名DimensionalMechanics作为其拥有AutoDL平台的“ 5家优秀公司”之一。
有一段时间,我试图亲自跟上No-Code AutoML和AutoDL的供应商名单,并提供其功能的更新。这很快变得太多了。
我希望Gartner或其他一些有价值的团队能够进行全面的审查,并在2017年Gartner发表了一篇相当冗长的报告“数据和分析未来的增强分析”。该报告是一个很好的概括,但未能吸引我亲自认识的许多供应商。
据我所知,仍然没有全面列出提供完全自动化或高度自动化功能的所有平台。但是,它们确实从IBM和SAS一直运行到小型初创公司,所有这些都值得您考虑。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学 Dimensional Scientists Enterprise dimension

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 15:20