考虑到商业智能项目所涉及的时间和资源投资,经理和业务主管必须清楚地了解典型交付项目的结构,以及统计数据如何融入整体方案。我们希望在进行具有潜在深远影响的高级分析项目时,这将允许更好的规划、技术采购、项目风险评估和资源分配。
什么构成数据科学?
数据科学是指一组实践,其中假设开发、数据建模、数据转换、特征工程、技术架构和项目管理的原则与统计方法结合使用,以应对特定的数据挑战。理解数据科学的最简单方法是查看业务分析,它是数据科学的一个子集,专门用于解决业务问题。
客户流失预测,提供可能获得最高点击率的广告,根据过去的购买历史显示下一个最佳行动,并在采购欺诈发生之前检测到,这些都是数据科学挑战的例子,其中统计数据用于从数据中收集见解. 最终解决方案需要多个步骤,包括:
阐明具体的业务挑战
收集所需数据
转换此数据,使其可用于建模(并且不牺牲样本随机性)
决定使用的最佳统计方法
建立统计模型
以对特定业务情况有意义的方式解释模型的结果
在生产环境中操作模型。
可以看出,数据科学过程包括几个步骤,而统计只是这些步骤之一(构建模型)的支持工具。就像数据仓库(收集原始数据)和特征工程(准备分析数据集)等其他技术一样。
举个例子
上面概述的区别最好借助一个真实的例子来说明。考虑寻找最有可能响应特定报价的潜在客户的营销部门。获取预算总是很紧张,这将有助于专注于针对这些客户的特定渠道和策略,而不是在没有精确受众定位的情况下开展一揽子营销活动。
纯粹从统计的角度来看这个业务问题将涉及使用某种决策树模型来首先识别之前对类似报价做出反应的潜在客户,然后使用相同的标准对其他潜在客户的转化可能性进行评分。博士可以轻松完成的事情。统计学家和 SQL 开发人员?毕竟,当 SQL 工程师运行查询以创建建模数据集时,统计学家可以找出最好的技术算法吗?
事实上,在许多情况下,当经理们开始数据科学试点时,这确实是预算和计划的全部内容。然而,基于上面关于什么构成数据科学项目的讨论,即使是解决原始业务问题的半心半意的计划也需要涉及许多业务管理、法律和商业方面的考虑。让我们快速看看如何。
究竟什么是转换?有人注册了电子邮件通讯?注册试用帐户?进行内容下载?真的有人买吗?如果该注册是试用版并且用户在未转换为付费帐户的情况下取消了怎么办?如果用户发出拒付怎么办?此类记录是否会包含在分析中?
为了使决策树起作用,我们还需要指定非转换器。我们如何识别非转化者的记录?有人点击了报价但未在同一会话中进行购买?还是在规定的时间范围内?绝不?如果有人经历了多次对比鲜明的运动,他转变为一种但没有转变为另一种怎么办?
之前所有可获得转化数据的广告系列都是重定向广告系列。我们能否安全地将分析结果应用于已经向从未看过我们广告的用户表明购买意图的用户?如果没有,我们如何将测试数据集放在一起?
现有的分析工具仅提供转化量的汇总视图,目前无法获得单个潜在客户级别的活动曝光历史记录。包含此功能的成本/时间是否合理并符合更大的技术战略?
假设我们决定无论如何都要创建一个模型,它甚至可以提供高度的准确性。开展具有高度针对性的营销活动的成本很高,所以我们真的可以将钱浪费在没有转化的潜在客户上吗?考虑到建模所涉及的成本和时间,我们是否会更好地开展广泛匹配活动?
技能可用性如何?供应商认证的工具专家(例如,SAS、SPSS 专家,通常在业务和数据方面的基础很少)喜欢称自己为数据科学家,但实际上对收购营销或营销运营缺乏基本的了解是不够的。我们是否可以使用合格的资源来运行该项目?外包会进一步扭曲拥有先进见解的成本/收益优势吗?
这些只是作为更广泛的数据科学项目的一部分,为了成功应用统计数据来解决业务问题而需要进行的一些评估。如需更深入地了解具体规划步骤和尽职调查技术,建议用户查看CRISP-DM 框架这是交付业务分析项目的事实上的行业方法。
概括
即使从上面的一小部分实践中也应该很明显,数据科学包含了更广泛的考虑因素来评估分析投资的商业可行性。统计建模的输出很可能是一个技术上精确的模型,但由于更广泛的成本/收益分析问题,它仍然可能永远不会被部署。
对公司业务、数据、ETL/数据仓库技术和统计概念有深入了解的全能业务分析师、高技能的数据库架构师和 ETL 专家以及合格的项目经理只是除了王牌统计学家将数据科学的承诺转化为商业现实。
相关帖子DA内容精选 |