发帖

楼主: 时光永痕

861 0

[数据挖掘新闻] 将 AI 应用于小数据集的 5 种方法 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）八级

19%

0%

威望: 0 级
论坛币: 26 个
通用积分: 57.2238
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34180 点
帖子: 2732
精华: 0
在线时间: 321 小时
注册时间: 2020-7-21
最后登录: 2024-8-1

楼主

时光永痕

发表于 2022-8-15 16:44:44 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

人工智能和数据科学协同工作以更好地收集、分类、分析和解释数据。然而，我们只听说过使用人工智能来理解大数据集。这是因为小数据集通常很容易被人们理解，不需要应用人工智能来分析和解释它们。

这些天来，许多企业和制造商将人工智能集成到生产线中，慢慢地造成数据稀缺。与大公司不同，由于风险、时间和预算限制，许多设置无法收集大量训练集。这导致人工智能解决方案被忽视或错误地应用于小型数据集。

由于大多数公司不知道如何正确地从小数据集上的 AI 应用中受益，他们盲目地应用它来根据以前的文件做出未来的预测。不幸的是，这会导致错误和冒险的决定。

因此，学习将 AI 应用于小型数据集并避免任何误解的正确方法至关重要。

人工智能在小数据集上的 5 种正确应用方式

最好在小数据集上使用 AI 算法，以在正确应用时获得没有人为错误和错误结果的结果。您还可以节省通常用于手动解释小数据的时间和资源。

以下是将 AI 应用于小型数据集的一些方法：

1. 小样本学习

少样本学习模型向 AI 引入少量训练数据，作为新数据集解释的参考。它是计算机视觉中常用的方法，因为它不需要很多示例来识别。

例如，财务分析系统不需要大量的库存就可以有效。因此，与其让 AI 系统承载大量信息，不如根据系统的容量输入损益表模板。

与其他 AI 系统不同，如果您在此模板中输入更多信息，则会导致错误结果。

当您在 AI 系统中上传样本数据时，它会从训练数据集中学习模式，以便将来对小数据集进行解释。小样本学习模型的吸引人之处在于，您不需要大量的训练数据集来训练 AI，从而使其以低成本和工作量运行。

2. 知识图谱

知识图谱模型通过过滤一个大的原始数据集来创建二级数据集。它用于存储事件、对象、真实情况以及理论或抽象概念的相互关联的描述和特征。

除了用作数据存储之外，该模型还同时对特定数据集的语义进行编码。

知识图模型的主要功能是对数据集中的重要点进行组织和结构化，以整合从各种来源收集的信息。知识图被标记以关联特定的含义。图中有两个主要组成部分 - 节点和边。节点是两个或多个项目，边表示它们之间的连接和关系。

您可以使用知识图谱来存储信息、整合数据，并通过多种算法操作数据以突出显示新信息。此外，它们可以方便地组织小型数据集，使它们具有高度的可解释性和可重用性。

3. 迁移学习

公司避免在小型数据集上应用人工智能，因为他们不确定结果。为大数据产生有效结果的相同方法会适得其反并产生错误的结果。然而，尽管数据集的大小，迁移学习方法会产生相似且可靠的结果。

迁移学习以一种 AI 模型为起点，但使用新的 AI 模型获得结果。简而言之，它是将知识从一种模型转移到另一种模型的过程。

该模型主要用于计算机视觉领域和自然处理的语言。原因是这些任务需要大量的数据和计算能力。因此，使用迁移学习可以减少额外的时间和精力。

新数据集必须与原始训练数据集相似，才能将迁移学习模型应用于小数据。在应用过程中，去掉神经网络的末端，添加一个类似于新数据集类的全连接层。在此之后，随机化全连接层的权重，同时冻结前一个网络的权重。现在，根据新的全连接和可操作层更新和训练 AI 网络。

4. 自我监督学习

自监督学习或 SSL 模型从可用或训练数据集中收集监督信号。然后，它使用已经可用的数据来预测未观察到或隐藏的数据。

SSL 模型主要用于执行回归分析和分类任务。但是，它也有助于在计算机视觉、视频处理和机器人控制领域标记未标记的数据。该模型在独立构建和监督整个过程的过程中迅速解决了数据标注挑战。通过这种方式，公司可以节省创建和应用不同 AI 模型所花费的额外成本和时间。

使用 SSL 模型具有很强的适应性，因为它可以创建可靠的结果，尽管数据集很大，证明了模型的可扩展性。SSL 也非常适合长期提高 AI 功能，因为它支持升级。此外，随着人工智能系统的独立发展，它消除了对样本案例的需求。

5. 综合数据

它是由经过真实数据集训练的 AI 算法创建的人工生成数据。顾名思义，它是人为创建的，并非基于实际事件。合成数据的结果预测能力与原始数据预测相匹配。它可以代替最初的数据预测，因为它不使用伪装和修改。

当可用数据集中存在空白并且无法用累积的数据填充它们时，合成数据是理想的选择。此外，与其他 AI 学习和测试模型相比，它价格低廉，并且不会损害客户隐私。因此，合成数据正在迅速占领多个领域，到 2024 年底，60% 的 AI 分析项目将由合成生成。

合成数据正在获得更多立足点，因为公司可以创建它以满足现有数据中不可用的特定条件。因此，如果公司由于隐私限制而无法访问数据集或产品无法用于测试，他们仍然可以使用 AI 算法创建合成数据来获得可靠的结果。

包起来

人工智能正在迅速发展并接管以简化每一项复杂的任务。但是，大多数人不知道他们可以应用 AI 算法。例如，它有利于组织和分析大数据，同时对较小的数据集也非常有效。但是要获得正确的结果，您必须使用准确的 AI 方法和模型。使用本文中列出的 AI 模型，因为它们适用于在小型数据集上创建正确的结果。

相关帖子DA内容精选

2022年300个以上最佳免费数据科学课

职场问诊 | 大厂裁员，如何正确的面对这个危机？

大三信管专业的我，用一个月通关CDA Level Ⅰ、Level Ⅱ 和CDA持证人分享

数据科学和企业的数据能力建设

商业智能分析工具的应用

TI类数据产品设计

管理分析需求与绩效指标

PyTorch最全的损失函数汇总

数据分析最常用的excel函数公式大全

零基础转行数据分析，看这篇文章就够了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：数据集小数据 CDA LEVEL excel函数商业智能分析