发帖

楼主: 时光永痕

544 0

[数据挖掘新闻] 保障大数据时代的数据完整性 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）六级

32%

0%

威望: 0 级
论坛币: 26 个
通用积分: 57.2086
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34190 点
帖子: 2733
精华: 0
在线时间: 321 小时
注册时间: 2020-7-21
最后登录: 2024-8-1

楼主

时光永痕

发表于 2022-6-28 14:49:42 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

体积主导着多维大数据世界。当今许多组织面临的挑战是利用数据的潜力并大规模应用所有常用方法和技术。毕竟，数据增长只是在增加，目前每天产生 2.5 万亿字节的数据。不幸的是，这些数据中有很大一部分是非结构化的，因此更难分类。

使问题更加复杂的是，大多数企业希望从长远来看，基于数据做出的决策会更加有效和成功。然而，大数据通常会带来很大的噪音——毕竟，您拥有的信息越多，其中一些信息可能不正确、重复、过时或存在其他缺陷的可能性就越大。这是大多数数据分析师都准备好应对的挑战，但 IT 团队需要考虑并考虑到他们的下游处理和决策制定，以确保任何不良数据都不会影响最终的洞察力。

这就是为什么单独的总体大数据分析解决方案不足以确保大数据时代的数据完整性。此外，虽然人工智能和机器学习等新技术可以帮助理解大量数据，但这些技术通常依赖于在幕后进行的一定量的清理和压缩才能有效并能够大规模运行。虽然考虑到数据中的一些错误很好，但能够在可能的情况下发现并消除错误是一项有价值的能力——特别是如果存在配置错误或单个数据源出现问题时会创建一个坏数据流，这可能会导致破坏有效分析和延迟价值实现时间方面的灾难性影响。如果没有正确的工具，这些类型的错误可能会产生意想不到的结果，并且离开数据专业人员需要整理大量数据以试图找到罪魁祸首。

当从多个不同的来源和系统，它们中的每一个都可能以不同的方式处理数据。大数据架构的绝对复杂性可以将挑战从大海捞针变成更类似于在整个谷仓中寻找单针的挑战。

同时，这个问题已经成为一个不仅影响 IT 功能和业务决策的问题，而且正在成为一个需要克服的法律要求。类似欧盟的立法一般数据保护条例(GDPR) 要求企业找到管理和跟踪所有个人数据的方法，无论基础设施或非结构化信息多么复杂。此外，在收到有效请求后，组织需要能够删除与个人有关的信息或收集和共享信息，作为个人数据可移植性权利的一部分。

那么，解决方案是什么？整体管理大数据野兽的最佳解决方案之一也是以确保数据完整性的方式构建的解决方案——通过自动化数据摄取来确保完整的数据沿袭。这创建了一条清晰的路径，显示数据是如何随着时间的推移而被使用的，以及它的来源。此外，此过程是自动完成的，使其更容易和更可靠。但是，重要的是要确保在精细的细节级别上完成谱系。

使用正确的数据沿袭工具，确保大数据环境中的数据完整性变得容易得多。正确的跟踪意味着数据科学家可以在整个过程中跟踪数据，以解释使用了哪些数据、从哪里使用以及为什么使用。同时，企业可以追踪单个个人的数据，整理所有噪音以满足主题访问请求，而不会破坏整个大数据管道或转移大量业务资源。因此，大数据分析可以提供更多洞察力，从而更快地提供更多价值——尽管它具有多维复杂性。

相关帖子DA内容精选

2022年300个以上最佳免费数据科学课

职场问诊 | 大厂裁员，如何正确的面对这个危机？

大三信管专业的我，用一个月通关CDA Level Ⅰ、Level Ⅱ 和CDA持证人分享

数据科学和企业的数据能力建设

商业智能分析工具的应用

TI类数据产品设计

管理分析需求与绩效指标

PyTorch最全的损失函数汇总

数据分析最常用的excel函数公式大全

零基础转行数据分析，看这篇文章就够了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：大数据时代完整性大数据 CDA LEVEL excel函数