楼主: 时光永痕
302 0

[数据挖掘新闻] 好的、干净的数据:如何让组织的数据处于最佳状态 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

54%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
随着我们处理的数据类型和数量的增加,管理和清理数据的挑战也随之增加。非结构化数据、来自多个来源的数据以及值不断变化的数据都会造成“混乱”——数据集充斥着噪音、不准确和重复。

对于依赖数据做出业务决策或维持日常运营的组织来说,这是一个大问题。凌乱的数据可能导致错误的分析,从而导致代价高昂的错误、客户流失、决策失误、生产力降低或对产品、服务、客户或市场的错误假设。当你让人类处理小型数据集时,这些问题就已经够糟糕了,而且只有当你有机器学习或人工智能模型处理大量数据并相应地绘制趋势。另一方面,干净的数据显着减少了这些问题,为更好的决策和更有利可图的结果铺平了道路。

以下是如何清理杂乱的数据,使其成为日常运营的重要组成部分。  

1.标准化输入格式

如果您正在处理非结构化(即基于文本的)数据或来自多个来源的数据,您很可能会发现数据集之间存在大量不一致之处。为了最大限度地降低复杂性,您首先需要标准化 Excel、JSON、PDF 文件、网站或数据库中的所有数据。这涉及检查和修复拼写和格式错误、应用命名约定以及确认日期和数字格式。例如,08/07/12 是 MM/DD/YY、DD/MM/YY 还是 YY/MM/DD 格式?除非你想冒险重复公制/英制混淆误差 这导致美国宇航局损失 1.25 亿美元的火星气候轨道器,您还需要确认您的单位在您的数据中是一致的。

2. 将数据集中到一个位置

标准化数据的重点是使其连贯一致,以便可以轻松地将其合并到一个单一结构中。合并您的数据可以让您弄清楚每个数据点与其他数据点的关系。例如,它可以帮助您查看客户管理系统中的哪张工单与财务电子表格中的哪一行相匹配,或者如何对客户可能与您沟通的不同渠道进行分组。因此,您最终将获得一个易于管理和分析的单一中央数据池。

3.处理重复

如果您合并了多个数据源,则很可能会遇到重复项。从网络上抓取的数据也可能包含大量近乎重复的数据,部分原因是文章“旋转”的盛行。例如,美联社和路透社发布的文章或新闻稿在许多不同的出版物中以略微不同的形式广泛转载。同一篇文章的多个版本很容易出现在您的机器学习模型的训练数据和评估数据,给你一个夸大的准确度数字和你的系统工作得如何的错误感觉。在清理数据时,您需要考虑完全重复和近似重复,因为两者都会影响数据的有效性。

4. 解决缺失数据

标准化和整合数据后,就该筛选并决定如何处理丢失的条目了。很容易短视地专注于缺少的内容以及您现在尝试完成的特定任务。但是一个好的数据集可以用于各种任务,缺失的数据可能会在以后变得可用。最好的方法是双重的:在您的数据存储中尽可能完整和准确,并等待仅在实际执行分析的时候填写任何缺失值。

当您达到这一点时,有几种方法可以填充这些值。理想情况下,您想要追踪真正的价值,但如果您做不到,请仔细考虑缺少什么、为什么以及这些价值可能是什么。虽然排除和插补等方法很受欢迎,但这些方法是在数据只是随机丢失的假设下工作的。但情况并非总是如此。假设您正在处理收入数据,并且您拥有公开交易公司的收入数据,但没有私人交易公司的收入数据。根据前者估算后者的数字将为您提供比实际值大几个数量级的数字。

由于填充缺失值涉及对数据中的潜在关系进行假设,因此值得与每天处理这些数据的个人合作。他们可能知道导致数据丢失的隐藏原因,可能知道其他信息来源,如果您让他们相信您的努力的价值,将来可能会更加勤奋地输入数据。

5. 查明错误数据

现在,您需要在数据集中和跨数据集交叉检查您的数据。虽然您的字段可能是标准化和完整的,但它们可能不一致或矛盾。您可以采取几种方法来识别和纠正错误数据。涉及利用多个数据源来交叉检查信息的三角测量就是其中之一。互补性,其中定性和定量方法一起使用,是另一个。数据可视化还可以帮助您识别矛盾的数据,以及识别异常值。

6. 寻找采样不佳的数据

并非所有数据都是平等创建的。预算限制、糟糕的调查设计和小样本量可能会导致数据收集不理想、过度抽样或抽样不足,从而在结果中引入偏差。您可以通过对特定类别进行战略性欠采样或过采样来解决不平衡的数据集,以减轻现有数据中的偏差。但是,虽然您可以解决不良数据,但请注意您无法真正修复它。重要的是要知道问题出在哪里。例如,如果样本量很小,请带着怀疑的态度看待任何结论。如果调查问题出现偏见,请在解释结果时考虑到这一点。此外,请注意界限。如果您试图了解您的产品在墨西哥的感受,但只处理英语回复,您将无法全面了解,

7. 密切关注不断变化的数据

您的数据集可能对时间的流逝很敏感。在收集时可能是真实或准确的值,例如工作角色或年龄,甚至您正在使用的基线或基准,可能不再适用。不断变化的关系和环境是另一个因素。例如,您的数据可能会告诉您,强调产品的低价是一种成功的销售策略。但随着时间的推移,这可能会变得不那么真实。因此,在从旧数据中得出结论时应该谨慎。最后,数据格式也可能随着时间而改变。调查问题发生变化,数据库被重构或停止维护。制定应急计划以应对不断变化的数据或系统,但也要注意您对数据所做的假设以及它们是否仍然适用。

干净的数据会让你付出代价,但混乱的数据会让你付出更多

数据是杂乱无章的,而且总是在变化,要掌握它需要大量的工作。但这样做的组织可以做出比竞争对手更明智的决策。此外,由于收集、清理和分析数据并不容易,因此构建灵活的数据管道系统可能是一个令人惊讶的持久竞争优势。  

虽然混乱的数据可能导致不准确或糟糕的战略决策,但干净的数据对于帮助您改善业务的各个领域都非常宝贵:无论是定制广告活动、决定新产品或服务,还是领先于社交媒体争议. 数据清理可能是一项具有挑战性且耗时的任务,但对您的企业而言,它比处理杂乱或过时的数据要便宜得多。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:时间的流逝 标准化数据 结构化数据 EXCEL 数据可视化

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-30 16:22