楼主: 时光永痕
2984 1

[数据挖掘新闻] 数据科学词典——你需要知道的关键术语 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

3%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2022-4-19 09:56:39 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
正如我 去年初所讨论的,数据科学领域是术语的虚拟温床,是计算机科学、统计学、数学和软件工程术语的汇合。此外,数据科学的语言发展非常迅速。作为一名记者和数据科学家,我可能在生态系统中的许多其他人之前看到了最新的术语。我在会议、聚会、社交媒体、LinkedIn、博客文章、Stack Overflow、研究论文以及与同事的对话中遇到了他们。在本文中,我将为您提供关于 2020 年数据科学的额外术语词典,包括 AI、 机器学习和 深度学习. 下面的列表包含一些我认为可以帮助您进入 2020 年的重要术语。  

人工智能聊天机器人——人工智能聊天机器人代表了一类软件,它能够通过消息传递应用程序以自然语言模拟用户对话。该技术的主要吸引力在于它通过在您的网站上提供 24/7 全天候可用来提高用户响应率,以提供更好的客户满意度。聊天机器人使用机器学习和自然语言处理 (NLP) 来提供接近人类的对话体验。
自动机器学习–自动化机器学习或AutoML是自动化应用机器学习的端到端过程以实现数据科学项目目标的过程。AutoML 试图让在该领域没有强大专业知识的人也可以使用机器学习,尽管更现实的是,它旨在通过自动化数据科学过程中的许多步骤来帮助提高经验丰富的数据科学家的生产力。使用 AutoML 的一些优势包括:(i)通过自动化重复性任务来提高生产力,这使数据科学家能够更多地关注问题而不是模型;(ii) 数据管道组件的自动化有助于避免手动流程中可能出现的错误;
BERT ——BERT (来自 Transformers 的双向编码器表示)是  在 Google AI Language 的研究人员最近发表的一篇论文中介绍的。它通过在各种 NLP 任务中展示最先进的结果,在机器学习社区中引起了混乱。BERT 的主要技术进步是将流行的注意力模型 Transformer 的双向训练应用于语言建模。这个方向与之前的努力形成对比,后者检查了从左到右或从左到右和从右到左组合训练的文本序列。BERT 的方法表明,与单向语言模型相比,双向训练的语言模型能够对语言上下文和流有更深的感知。
认知计算——认知计算基于自学习系统,该系统使用机器学习技术以智能方式执行特定的类人任务。认知计算的主要目标是使用计算机模型来模拟人类的思维过程。通过使用模式识别和自然语言处理的自学习算法,计算机能够模仿人脑的运作方式。
数据管道——数据科学家依靠数据管道来封装为机器学习准备数据所需的许多处理步骤。这些步骤可能包括从各种数据源获取数据集,执行“数据准备”操作,例如清理数据和处理缺失数据和异常值,以及将数据转换为更适合机器学习的形式。数据管道还包括训练或拟合模型并确定其准确性。数据管道通常是自动化的,因此它们的步骤可以持续执行。  
数据湖、数据仓库——数据湖和数据仓库都广泛用于存储所谓的“大数据”,但它们不是可互换的术语。数据湖构成了一个没有具体目的的大规模原始数据池。另一方面,数据仓库是已经为特定目的处理的结构化、过滤数据的存储库。企业通常需要这两种类型的存储库。数据湖的诞生是为了利用大数据并从用于机器学习的原始、粒度结构化和非结构化数据中受益,但仍然需要为业务用户使用的分析创建数据仓库。
边缘分析——边缘分析是一种执行数据收集和分析的方法,其中分析计算在收集点(例如传感器)上对数据执行,而不是等待数据被发送回集中数据存储然后进行分析. 随着连接设备的物联网模型变得更加成熟,边缘分析已受到青睐。在许多企业中,来自连接到物联网网络的各种公司运营的流数据会产生大量运营数据,这些数据管理起来既困难又昂贵。通过在收集数据时通过分析过程运行数据,在网络的“边缘”,可以建立过滤器,以确定哪些信息值得发送到中央数据存储以供以后使用。
GAN——生成对抗网络 (GAN) 是由两个相互对抗的网络组成的深度神经网络架构,例如术语“对抗”。 GAN 的理论首先由深度学习大师 Ian Goodfellow 和蒙特利尔大学的其他研究人员(包括 Yoshua Bengio)在 2014 年的 一篇论文中提出。GAN 的潜力是巨大的,因为它们是 生成 模型,因为它们可以创建类似于训练数据的新数据实例。例如,GAN 可以创建看起来像人脸照片的图像,即使这些人脸不属于任何真实的人。
地理空间分析——地理空间分析是一种用于收集、操作和显示地理信息系统 (GIS) 数据(例如 GPS 数据)和图像(例如卫星照片)的技术。地理空间分析使用地理坐标以及特定的标识符变量,例如街道地址和邮政编码。该技术用于创建地理模型和数据可视化,以实现更准确的建模和预测。
图数据库——图数据库使用“图论”来存储、映射和查询数据元素的关系。本质上,图形数据库是所谓的 节点 和 边的集合。一个节点代表一个实体,例如产品或客户,而一条边代表两个节点之间的连接或关系。图数据库中包含的每个节点都由唯一标识符、一组传出边和/或传入边以及一组键/值对定义。每条边由唯一标识符、起始位置和/或结束位置节点以及一组属性定义。图数据库非常适合分析互连。
Julia – 无论您是使用最流行的编程语言 R 还是 Python 的数据科学家,您仍然应该了解一种相对较新的语言,它是从头开始为数据科学应用程序设计的。Julia 于 2012 年在一篇 博文中正式宣布。该语言的设计者和另外两个人于 2015 年 7 月创立了 Julia Computing  ,以“开发使 Julia 易于使用、易于部署和易于扩展的产品”。Julia 是一种用于数值计算的免费开源高级编程语言。它具有动态语言的便利性和编译的静态类型语言的性能,通过生成本机机器代码的 JIT 编译器,以及通过专门化实现类型稳定性的设计 多次分派,使其易于编译为高效代码。
低代码/无代码——这些天您可能会看到很多提及“低代码”和/或“无代码”的术语。许多新产品以及一些成熟产品正在被重新命名为采用低代码/无代码方法。简而言之,低代码/无代码开发平台是一个可视化集成开发环境,允许公民开发人员拖放应用程序组件,将它们连接在一起并创建完成的应用程序。许多企业 BI 平台都属于此平台类别。

编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了

DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学 Transformers transform computing Language

沙发
悟空322 发表于 2022-4-20 07:26:59 来自手机
时光永痕 发表于 2022-4-19 09:56
正如我 去年初所讨论的,数据科学领域是术语的虚拟温床,是计算机科学、统计学、数学和软件工程术语的汇合。 ...
谢谢分享

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-22 21:13