特征存储是过去一年在 ML 社区中出现的数据基础设施的一个元素,是 ML 管道的核心。对于试图通过数据科学进行转型的公司来说,采用特征存储可以成为力量倍增器。
特征存储不是存储特征。功能存储不仅仅是功能的存储库,它是一个运行可扩展的高性能数据管道以将原始数据转换为功能的系统。有了这个系统,机器学习团队可以定义一次特性,然后部署到生产环境中而无需重写。
是的,还有一个功能商店:
目录和存储功能供团队中的每个人发现和共享,减少重复工作。
为训练和推理提供相同的功能,节省时间并保持功能准确
分析和监控漂移特征。
维护一个包含所有元数据和统计数据的特征寄存器,以便整个团队可以从单一的事实来源工作。
出于安全性和合规性目的管理数据。
什么是特征?
特征是机器学习模型的输入变量。换句话说,它是机器学习模型将使用的一段数据。机器学习功能有两种类型:在线和离线。
离线特征是不经常改变的静态特征。这可以是用户语言、位置或教育水平等数据。这些特征是批量处理的。通常,离线特征是通过 Spark 等框架计算的,或者通过简单地在数据库上运行 SQL 查询然后使用批量推理过程来计算。
在线特征“也称为实时特征”是动态的,需要处理引擎来计算,有时是实时的。广告展示次数是一个很好的例子,说明变化非常快并且需要实时计算的特性。在线功能通常也需要以超低延迟提供。因此,这些计算更具挑战性,需要快速计算和快速数据访问。数据存储在内存或非常快速的键值数据库中。该过程本身可以在云中的各种服务或专用 MLOps 平台上执行。
为什么您可能需要特色商店
数据科学家的优势在于通过理解数据和创建复杂算法来解决业务问题。他们不是数据工程师,也不需要是。在典型的工作流程中,数据科学家搜索和创建特征作为他们工作的一部分,他们创建的特征通常用于在严格的开发环境中训练模型。因此,一旦模型准备好部署到生产环境中,数据工程师必须接管并重写该功能以使其能够投入生产。这是MLOps过程(机器学习操作化)的一部分。这种孤立的过程会产生更长的开发周期,并引入训练服务偏差的风险,由于这些代码更改,可能会导致生产中的模型不太准确。
实时管道还需要极其快速的事件处理机制,同时运行复杂的算法来实时计算特征。对于金融或广告技术等行业的许多用例,应用程序需要毫秒范围内的响应时间。
满足这一要求需要合适的数据架构和正确的工具集,以支持具有低延迟响应时间的实时事件处理。ML 团队不能使用与训练相同的工具进行实时处理(例如 Spark)。
特征存储架构的主要优势是强大且快速的数据转换服务,可为机器学习工作负载提供动力,以应对数据管理尤其是实时数据带来的挑战。特征存储解决了实时特征工程的复杂问题,并为训练和服务维护一个生成特征的逻辑。这样,机器学习团队可以构建一次,然后将其用于离线训练和在线服务,确保两层的特征以相同的方式计算,这在低延迟实时用例中尤其重要。
集成还是独立?
特色商店市场非常活跃,过去一年有很多新进入者,而且无疑还会有更多。特征存储最重要的特征之一是它与 ML 工作流程中的其他组件无缝集成。使用集成的功能存储将使 ML 团队中的每个人的生活变得更简单,监控、管道自动化和多个部署选项已经可用,而无需大量的粘合逻辑和维护。
相关帖子DA内容精选
|


雷达卡



京公网安备 11010802022788号







