业务问题和数据科学解决方案概述-第2部分
数据挖掘
与数据挖掘有一个重要的区别。首先是挖掘数据以查找模式和构建模型之间的差异,其次是使用数据挖掘的结果。数据挖掘结果通知数据挖掘过程本身。
CRISP数据挖掘过程
跨行业的数据挖掘标准流程,称为CRISP-DM,是一种开放标准流程模型,描述了数据挖掘专家使用的常用方法。它是使用最广泛的分析模型,将数据挖掘的过程分为六个主要过程。
正如我们在流程图中看到的那样,整个过程都是通过迭代来探索数据。现在让我们讨论这个步骤。
业务理解
首先,有必要了解要解决的问题。这似乎很明显,但是重现问题并设计解决方案是通常的过程。如图所示,这由一个周期中的多个周期表示。在此阶段,分析师的创造力起着重要作用。
正如我们在第1部分中看到的,有强大的工具可以解决特定问题。因此,设计团队应仔细考虑要解决的问题和使用场景。这本身就是数据科学最重要的基本原理之一。
数据理解
重要的是要从可用的原材料中了解其优势和局限性,并以此为基础构建解决方案。数据包含来自数据库的不同信息,这些信息可以是历史数据,客户数据,营销数据或交易数据。数据的成本也很重要,因为有些成本是免费的,而另一些成本则需要付出努力。因此,应该对每个数据源的成本和收益进行估算。
资料准备
下一步是数据准备。通常,原始数据的格式不能直接用于执行数据分析。大多数平台要求数据的形式与提供数据的方式不同。用非常简单的术语来说,大多数平台要求数据采用矩阵形式,变量位于代表各种观察结果的不同列和行中。数据可以结构化,半结构化和非结构化的形式提供。需要付出很大的努力才能将半结构化和非结构化数据对齐为可用形式。
数据准备过程中一个非常普遍且重要的问题是提防“泄漏”
(Kaufman 2012 –数据挖掘中的泄漏:公式化,检测和避免。关于从数据中发现知识的ACM事务(TKDD))如果您感兴趣,可以在这里阅读:
造型
下一步是使数据生效并建立模型。建模的输出是数据中某种形式的模型或模式捕获规律(趋势)。重要的是要知道存在的某种技术和算法。模型的复杂度有所不同,范围从简单的单变量线性回归模型到复杂的机器学习算法。
评价
评估阶段的目的是评估结果并获得有效和可靠数据的可信度。它还有助于确保模型满足最初的业务目标。业务数据科学的主要目标是支持决策制定和解决业务问题。在评估阶段,即使模型通过,可能还有其他考虑因素使其不切实际。结果包括定量和定性评估,因此必须考虑该模型的可理解性。最后,一个全面的评估框架很重要。如需进一步研究,请看这里:
部署方式
在部署阶段,将数据挖掘的结果投入实际使用。很多时候,必须对模型进行校正,并添加或删除新变量以提高性能。部署的最明显案例涉及在某些信息系统或业务流程中实现预测模型。此外,还部署了挖掘技术本身(例如,针对在线广告)。
无论部署是否成功,流程都将返回到“业务理解”阶段。数据挖掘的过程带来了深刻的见识,因此第二次迭代可以改善解决方案。但是,一直都有调整,因此您可以从每个阶段返回到上一个阶段。
1