规划
当我们开始任何数据科学项目,我们有一个计划。我们有多少人花时间把它写下来?美国烹饪学院的学生从一开始就学习这一点(Charnas,263)。他们不仅写下他们的步骤,而且以有效的顺序对它们进行排序。在快速的服务中,他们可以依靠他们的计划来高效地度过一天,并且减少错误。现在是我们做同样事情的时候了。例如,当我们开始探索性数据分析 (EDA) 时,我们也需要一个计划来识别感兴趣的数据、了解每条记录描述的内容、汇总列和其他步骤。我们的第一步是请求此访问权限,并在等待权限和访问方法的同时,为分析做准备。你可能会争辩说记住提出这个请求是微不足道的,但是如果你在繁忙的星期一被要求在星期三开始这项工作,你可能会认为你有两天时间开始。到那时,你会迟到两天。最好花时间尽早计划,以便在您分析数据之前准备好您的权限和访问权限。
识别资源
当厨师准备菜单时,他们可以依靠餐厅的类型和口味来帮助他们缩小菜单范围。考虑确定可以根据需要添加到项目中的代码片段列表 - 就像在您正在构建的配方中添加成分一样。当然,任何优秀的厨师都会根据季节的食材调整食谱。我们也可以这样做,因为我们知道一些数据和项目有不同的需求。
工作清洁
一天结束时,厨师将所有可重复使用的食材放入容器中,贴上标签,然后将它们放在明天使用,扔掉无法使用的剩菜并将脏盘子放入洗碗机中(Charnas,11)。我们还有无法使用的剩菜或脏盘子,例如废弃的脚本和临时输出。通过删除它们,我们明天或明年重新打开项目文件夹时不会感到困惑。我们需要通过将代码签入 git 并推送到 GitHub 来标记我们保留的所有内容。此外,作为科学家,我们需要比厨师走得更远,并记录我们所做的一切。如果我们不记录它,它就不会发生。现在,当客户询问有关我们分析的问题时,我们会提供注释来帮助我们回答他们的问题或向他们展示未报告的中间结果,以支持我们在分析期间做出决定的原因。但不要等到一天结束。如果您一边工作一边干干净净并近乎实时地记录,那么您在一天结束时要做的事情就会减少。
干净利落的工作让我们能够专注于好东西——我们的 R 脚本、报告或 PowerPoint 幻灯片。就像厨师在将它们组装到盘子上之前品尝他们的酱汁和其他成分一样,我们需要在每一步检查我们的数据,从第一次加载数据开始。我们是否检查以确保它加载了所有记录?是否有重复记录?如果是这样,可以吗?在一系列与日期相关的记录中间是否缺少任何数据?通过检查每一步,我们可以以更低成本和更短的时间解决问题。
保证质量
最后,在我们进行分析之前,我们应该最后看一下我们正在交付的内容。正如厨师确保完成的饭菜美味可口,我们需要确保用文字、表格和数字清楚地解释洞察力。当然,这只是最终检查的第一步。同行(其他数据科学家)和同事(其他团队成员)也应该检查我们的工作以确定质量和对受众的适用性。就像有些客人不喜欢辛辣食物一样,有些客户不会理解直方图。可能需要调整以使我们的最终结果最适合该客户。
生产卓越
一旦我们交付了最终结果,就该再次进行清理、记录、收起我们的项目并开始下一个项目了。我们可以确信我们已经有效地执行了我们的分析,因为我们计划了每一步,我们在需要时准备好了所有资源,并且我们的项目是可重复的,因为我们摆脱了易腐烂的东西,检查了所有我们的代码,并记录了该项目。我们的客户收到了可交付成果,在每一步都牢记效率和质量。让我们利用百年发展的现场环境并加以利用,帮助我们实现卓越。
受 Mise en Place 启发的清单
如果应用于每个数据科学项目,我们可以自信地交付成果,并且每一步都包含效率和质量。
1. 你的项目有计划吗?
2. 您的计划是否包括资源清单?
3. 是否所有代码都已签入?
4. 你有内置的质量检查吗?
5. 你有项目日志吗?
6. 你的工作可以重现吗?
相关帖子DA内容精选
|