楼主: 时光永痕
751 0

[数据挖掘新闻] 数据质量-您的测量有误 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

5%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-7-21 17:27:07 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据质量-您的测量有误
我们的一位客户最近提出了这个问题:
“我想为自己[数据团队]建立一个OKR,以围绕数据可用性。我想建立一个单一的KPI,以总结可用性,新鲜度和质量。
最好的方法是什么?”
我不能告诉你这个要求给我带来了多少欢乐。作为一个痴迷于数据可用性的人-是的,您没看错:这些天,我不再是绵羊,而是梦想着空值和数据新鲜度-这是一个梦想成真。
为什么这么重要?
如果您正在使用数据,那么您当前正在处理一个数据质量项目,或者只是打包一个。这是不良数据的定律–总是有更多的数据。
传统的测量数据质量的方法通常是时间和资源密集型的,涉及多个变量,从准确性(不费吹灰之力)和完整性,到有效性和及时性(在数据中,没有时下流行的东西)。但是,好消息是有更好的方法来处理数据质量。
数据停机时间(您的数据不完整,错误,丢失或不准确的时间段)对于任何努力以数据为导向的公司来说都是一项重要的衡量标准。听起来有些陈词滥调,但这是事实–我们努力收集,跟踪和使用数据,但是通常我们不知道数据是否准确。实际上,公司最终往往拥有出色的数据管道,但数据却很糟糕。那么,如果最终无法真正使用数据,那么建立一个有价值的数据架构所需要付出的全部努力是什么?
通过测量数据停机时间,  这个简单的公式将帮助您确定数据的可靠性,使您有信心使用或丢失数据。
因此,您想要一个KPI吗?
总体而言,数据停机时间取决于以下因素:
数据事件数(N) -考虑到您依赖团队“外部”数据源,这个因素并不总是可以控制的,但它肯定是数据正常运行时间的驱动力。
检测时间(TTD) -发生事件时,您会多快收到警报?在极端情况下,如果您没有适当的检测方法,则可以在几个月内测量此数量。不良数据造成的无声错误可能会导致代价高昂的决策,并对您的公司和客户产生影响。
解决时间(TTR) -在已知事件之后,您能够多快解决该事件?
通过这种方法,数据事件是指数据产品(例如,Looker报表)“不正确”的情况,这可能是许多根本原因造成的,包括:
所有/部分数据不够及时
全部/部分数据丢失/重复
某些字段缺失/不正确
以下是一些非数据事件的示例:
计划的架构更改,不会“破坏”任何下游数据
由于有意更改数据系统(弃用)而停止更新的表
综上所述,我建议用于数据停机的正确KPI是:
数据停机时间=数据事件数x
(检测时间+解决时间)
(如果要进一步提高此KPI,还可以按严重性对事件进行分类,并根据严重性级别对举重正常运行时间进行分类,但是为了简单起见,我们将其保存在以后的文章中。)
结合自动化,高级检测和无缝解析的正确组合,您可以通过减少TTD和TTR来最大程度地减少数据停机时间。甚至还有减少N的方法,我们将在以后的文章中讨论(破坏者:首先要获得正确的可见性以防止数据事件)。
测量数据停机时间是了解数据质量的第一步,并从此确保其可靠性。由于花哨的算法和业务指标无处不在,因此很容易使我们的度量方式变得过于复杂。有时,最简单的方法就是最好的方法。

关注“CDA人工智能学院”,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据质量 使用数据 部分数据 人工智能 运行时间

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 23:01