点播课程:业务分析在行动
学习新的分析和机器学习技能和策略,您可以立即在您的组织中使用。
在这里注册
今天的大多数商业领袖都听说数据科学可以提高运营效率和客户关系,但并不总是很清楚应该如何实施数据科学或具体的商业利益可能是什么。
这篇博文解决了个人和组织对数据科学的一些误解。它还包括开发人员可用于在其组织中启用数据科学功能的技巧。
什么是数据科学?
数据科学是一个涵盖性术语,包含一些当今最热门的主题,例如机器学习、分析、建模和数据可视化。在实践中,数据科学是一个过程。它从一个假设开始,然后收集数据,希望能产生有价值的见解。收集数据后,将用于检验假设
并建立模型。最后,分析结果并以报告或仪表板的形式呈现给决策者。
这些模型倾向于近似现实世界中的事件或行为,用于做出重要决策。例如,客户流失检测模型通常用于预测哪些客户最有可能背叛竞争对手,以便企业采取预防措施。根据具体情况,预防措施可能采取经理电话、折扣订阅续订率或优惠券的形式。
不幸的是,数据科学没有单一的定义,但许多数据科学家和供应商将其描述为一个过程,类似于上面介绍的定义和工作流程。一些人认为数据科学与统计建模或分析(识别数据中的模式并通过仪表板呈现结果)同义,这只会增加混乱。建模和分析是数据科学过程的子集。
好消息是,企业可以选择如何在其组织中实施数据科学,因为没有“正确”的方法来做到这一点。数据科学的实施方式取决于很多因素,包括组织可用的专业知识、工具和数据。数据科学最有效的实施往往始于业务目标并与之保持一致。
经验丰富的数据科学家了解这些细微差别。这种理解促进了清晰度。不幸的是,围绕数据科学存在许多神话,它们成为通往清晰之路的障碍。通过面对这些神话,我们希望更多的组织,尤其是拥有开发团队的组织,将实施数据科学。
误区一:很难找到数据科学家
媒体充分记录了数据科学家的短缺。事实上,Fast Company 和其他人引用了麦肯锡的一份报告,预测到 2024 年,仅美国就将缺少 250,000 名数据科学家。当今的许多公司都在争夺“真正的”数据科学家或“独角兽”。独角兽是拥有数学或统计学研究生学位(博士优先)、强大的编程技能和扎实的领域专业知识的稀有生物。很少有候选人在这三个领域都拥有深厚的专业知识,这就是为什么缺乏数据科学家的原因。为了克服这一障碍,一些组织正在尝试开发一种结合了多人专业知识的数据科学实践。
一个常见的错误是在必要之前聘请专业知识,例如博士级统计学家或数据科学家。公司决策者认为公司需要这样的人来获得竞争优势,但不清楚该人应该做什么以及为谁做。缺乏使命和目标的统计学家或数据科学家渴望对业务产生积极影响,但不能因为另一位雇主提供更好的报价而辞职。这就是为什么聘用专业人才往往比留住人才更容易的原因。
大多数组织无需高度专业化的专业知识或昂贵的软件即可开始从数据科学中获益,但他们往往不知道从哪里开始。我们建议向内看,从软件开发团队开始。根据我们的经验,可以训练软件开发团队承担数据科学任务。
误区二:数据科学只适用于大型组织
大型组织通常拥有建立正式数据科学实践所需的财务资源。然而,这并不意味着他们的数据科学实践会成功。
当这些大型组织取得成功时,媒体喜欢将它们作为公司可以实现的目标的例子,例如更有效地竞争、提高运营效率,甚至颠覆整个行业。由于大型品牌公司通常被定位为其行业的领导者,因此中小型企业 (SMB) 可能认为数据科学需要对昂贵的软件和使用该软件所需的专业知识进行大量投资。
事实上,数据科学不需要这些东西。在这个领域,庞大的资源并不能保证成功。智能资源可以。如果有能力的团队正确实施,各种规模的组织都可以在其数据科学活动中取得成功。
误区三:数据科学只是一个流行词
商业领袖、记者和行业分析师很快就会使用最新的行话。由此产生的噪音可能使人们难以区分行业炒作和经得起时间考验的技术或流程。鉴于这些天对数据科学的极端炒作,一些人认为它只是另一个流行语或时尚也就不足为奇了。
然而,数据科学并不是一个流行语或时尚。它是经过时间考验的学科的融合,包括统计和预测,已经以某种形式存在了几个世纪。例如,精算师和气象学家长期以来一直使用模型来分别预测风险和天气。现在,几乎每个行业的企业都在尝试使用数据来提高绩效。
数据科学与其前身(包括精算科学和统计学)的一些区别在于可以访问大量可以廉价存储的数据、强大的计算能力以及快速访问预定义模型。与过去相比,组织可以比以往任何时候都更多地了解自己、市场和客户,因为他们需要的数据丰富、易于复制、易于共享且相对易于处理。这些功能与当今强大的编程环境相结合,使开发人员能够对数据的操作、清理、预处理、分析和可视化方式进行相当大的控制。
误区四:复杂模型比简单模型好
决策树、统计回归和线性回归并不新鲜,因此媒体对它们的关注度低于深度学习和神经网络。深度学习和神经网络使用的复杂模型比用于解决简单问题的模型复杂得多,因为它们试图模拟任意复杂的函数。
出于几个原因,复杂模型不一定比简单模型更好。首先,如果问题相对简单,复杂模型的效率可能低于简单模型。其次,就处理能力而言,复杂模型的成本可能很高。最后,复杂的模型会导致难以或无法解释的黑盒方法。虽然黑盒解决方案的结果可能是“好”的,但黑盒解决方案不允许用户探索结果是如何得出的。如果用户无法探索结果是如何得出的,他们就无法理解其中的内容。如果他们无法理解导致结果的原因,他们就无法解释细节,这是不好的,尤其是在审计场景中。
更简单的模型更容易理解和解释。例如,可以使用相对简单的逻辑回归模型来预测您的哪些潜在客户可能会购买您的产品。
一个常见的错误是认为复杂模型在所有情况下都必然比简单模型产生更好的结果。然而,不必要的复杂性会导致收益递减。在这种情况下,最好少花时间调整模型,多花时间理解和清理数据。
误区 5:数据科学需要对统计和统计方法有深入的了解
虽然数据科学确实需要了解统计学,但企业可以利用数据科学而无需配备统计学家。大多数开发人员对统计学有基本的了解,因为他们在大学里至少学过一门课程。
如果您是一名负责在您的组织中构建数据科学功能的开发人员,或者您想自己开始构建该功能,那么刷新或增强您的统计知识是明智的,这样您就可以了解开发中常用的基础知识楷模。
您不必参加正式课程。您不必攻读研究生学位。本白皮书末尾引用的电子书和其他资源将帮助您了解基础知识。有了这些知识,您将能够构建对您的组织有意义的模型。
如果您想稍后修改模型,您可能需要了解更多信息,以便了解特定假设如何影响您正在做的事情。
误区六:受监管的公司无法利用数据科学
受监管的公司必须小心他们使用的信息及其使用方式。然而,这些限制并不意味着受监管的公司不能利用数据科学或建立模型。
例如,医院正在使用数据科学来改善患者护理、紧急分诊和成本控制。同样,金融服务、石油和天然气以及制药等其他受监管行业的公司也在不使用法律禁止的信息的情况下从数据科学中受益。
但是,请注意推理。您的公司可能被禁止出于特定目的使用某些类型的信息,例如个人身份信息 (PII)。然而,可以通过组合不受限制的其他数据点来推断敏感信息。此类使用可能会使您的公司面临监管罚款和损害赔偿。
您可以通过避免允许推断个人信息的不必要属性来最大限度地降低此类风险的可能性,这可能是法律禁止的。例如,如果将收入作为歧视的依据是非法的,那么人们仍然可以从一个人的邮政编码、汽车品牌和型号等推断出一个人的大致收入水平。
即使某些类型的个人信息不受法律禁止,它们的使用也可能对品牌造成损害。例如,福布斯报道称,塔吉特根据一名少女的购买习惯推断她怀孕了。基于这一见解,塔吉特将相关优惠券发送到女孩的家庭住址,并被她毫无戒心的父亲发现。
因为推断可以为法律和其他风险打开大门,所以组织应该了解他们的数据可以推断出什么以及相关的风险是什么。
误区七:数据科学工具太贵了
一些最复杂的数据科学产品的购买成本极高且难以使用。但是,不必为了从数据科学中受益而在软件上投资数百万美元。
16/如何-
一方面,有许多开源工具,例如 R 和 Apache Spark,设置和使用并不难。鉴于此类工具的受欢迎程度,也有许多商业支持选项可供选择。
还有一些比传统解决方案便宜得多的商业产品。
您无需为使用数据科学的昂贵工具进行预算。
误区八:数据科学需要海量计算能力
大数据和人工智能的炒作给人的印象是数据科学需要大规模并行的 GPU 加速机器或巨大的集群。虽然大型深度学习和神经网络有时确实需要这种计算能力,但许多用例不需要。
可以通过简单模型解决的问题可能只需要具有 64 GB 或 128 GB RAM 的 PC。如果这还不够,那么在云上花费两三个小时可能就是构建和测试模型所必需的。如果数据处理或数据清理要求超过单个节点的容量,则可能还需要 AWS 或 Microsoft Azure 等云环境。
从本质上讲,根据需要扩展计算资源比过度设计比问题所需更复杂和更昂贵的计算环境更具成本效益。
误区 9:数据无法货币化,因为它的格式很难使用
谷歌和 Facebook 等数据优先公司是数据货币化的大师。他们收集了大量的信息,以可观的利润出售给各方。
一些中小型企业认为数据货币化是只有行业巨头才能做到的事情,因为它们是数据优先的公司。然而,大多数企业都拥有宝贵的客户数据,可用于改善公司运营并可能推动新的收入来源。例如,大多数公司都有交易信息,无论是客户订单还是信用卡销售。他们可能还拥有来自其网站或呼叫中心的客户服务记录以及支持票。然而,许多企业无法有效地利用这些数据,更不用说将其货币化了。
事实上,尚不清楚通过建模或分析可以从数据中辨别出什么。更糟糕的是,数据可能不容易访问,因为它存储在各种数据库、纸上或尚未互连的业务系统中。
部分问题可以使用数据集成平台来解决。使用集成平台,组织能够连接点,这意味着他们的洞察力超越了存储在任何一个系统中的数据。使用这种方法,组织可以更好地优化业务流程和客户旅程。常见的联系包括销售、营销和客户支持,尽管这些信息也可以与供应链信息和来自其他系统的信息(视情况而定)相关联。
通常买卖趋势信息,例如天气、交通和客户购买模式,以提高销售、营销或运营效率。将此类数据货币化的公司通常会对其进行转换,以便其他应用程序可以轻松地使用它(这是数据集成平台所做的一部分)。然后通过 API 将数据提供给第三方。
简而言之,数据集成平台降低了信息共享和货币化的门槛。
误区 10:数据科学很难采用,因为它很复杂
数据科学可能是一项非常复杂的工作,但并非必须如此。事实上,最好从简单的开始,以此推动成功,然后扩展你的能力。
许多组织首先汇总他们认为有价值的数据,从中收集一些见解,然后通过报告和仪表板将这些见解推送给决策者。后来,他们开始在数据之上构建模型,以推动新的和更细粒度的洞察力。
尽管数据科学的采用没有单一的“正确”路径,但当更简单的解决方案更优雅、更有效和更具成本效益时,错误的路径不可避免地会使问题过度复杂化。
结论
数据科学不一定是一项复杂且昂贵的事业,需要强大的博士团队。您今天拥有的软件开发能力可以产生宝贵的洞察力,而这些洞察力曾经被认为是不可能的,而无需大量投资额外的资源。
克服组织障碍的一种方法是通过对统计的基本理解来补充您的计算机科学和业务领域专业知识,以便您可以开始构建有利于组织的模型。随着业务需求的增长,您可以扩展您的知识,帮助您的公司走上成功的数据科学之路。
相关帖子DA内容精选
|