您熟悉术语“数据湖”。数据湖是用于存储无限量数据的存储库。如今,大多数云服务提供商都允许我们托管可伸缩的数据湖,以在数据到达时对其进行存储。为了使用这些数据湖,不需要构造数据,我们可以在其上运行不同类型的应用程序。通常,它们是大数据分析和机器学习的应用程序。这些应用程序需要将整个数据显示在一个数据湖中,并且当将一组新数据添加到该湖中时,我们需要再次重复分析和机器学习训练过程。这是一个耗时的过程,会影响解决方案的交付时间表。
大数据分析和机器学习的最新进展是增量分析和增量培训。增量学习通过对新数据进行进一步的训练来扩展现有机器学习模型的知识。有了这一进步,在将新数据添加到湖泊之后,我们不必重新运行整个过程。通过增量学习,我们可以通过对新添加的数据运行应用程序来增强已经捕获的结果和智能。为了维护分析和机器学习工作流程,在模型的第一个版本生成后,我们不需要订阅数据湖。一旦完成了对批量数据的初步分析和培训,我们就可以通过将增量数据保存在“数据箱”中来进行增量学习。数据箱可促进增量学习。与数据湖不同 数据箱容量有限。这有助于节省下标的云成本。就像水箱一样,数据被填充到数据箱中,一旦被填充到最大容量,就会触发大数据分析/机器学习培训。这些应用程序对已捕获的结果/智能进行增量更新。一旦完成增量学习,就可以清空存储在容器中的数据,以腾出空间来存储另一组数据。从本质上讲,数据箱将被重用,并且数据不会永久存储。这些应用程序对已捕获的结果/智能进行增量更新。一旦完成增量学习,就可以清空存储在容器中的数据,以腾出空间来存储另一组数据。从本质上讲,数据箱将被重用,并且数据不会永久存储。这些应用程序对已捕获的结果/智能进行增量更新。一旦完成增量学习,就可以清空存储在容器中的数据,以腾出空间来存储另一组数据。从本质上讲,数据箱将被重用,并且数据不会永久存储。
随着物联网技术的发展,机器学习模型已部署在边缘设备上。部署在边缘设备上的模型可以看到大量在线数据,而利用新数据来训练已经部署的模型是一个挑战。要运行成熟的机器学习培训过程,该设备应具有巨大的存储和内存容量。这就是数据收集器变得有用的地方。储罐可部署在边缘设备上,储罐的容量可根据设备上的可用存储空间来确定。增量学习包含一组用于以增量方式训练模型的技术。如果使用Keras使用TensorFlow框架开发模型,则可以使用Keras和Creme在线和增量学习。Creme是专门为增量学习量身定制的库。Amazon SageMaker提供了用于增量学习的内置算法。此功能可帮助您利用Data Tanks在边缘设备上部署学习应用程序,并具有增量更新其智能的功能。
随意实施Data Tanks进行增量学习,并缩短重新训练模型所需的时间。
关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!