开发部署时间从几个月到几分钟:eBay的大规模AI平台实践一一part 2
为了更好地管理系统中传输的大量数据,eBay 设计并构建了自己的 专用服务器。新的服务器可以让 eBay 的数据科学家和工程师加速开发新功能,将开发时间从几周减少到几个小时。
在业务影响方面,部署时间有巨大的改善。eBay 现在可以将模型训练自动化,并将模型部署到个性化或通用推理平台上,只需几天,而以前需要几个月。这导致了一些重要功能的改进,比如 图像搜索,它允许购物者通过上传相似商品的图片来浏览他们想要的商品。
建立统一的人工智能平台团队
Krylov 是高度创新的,它的开发方式也是如此。
eBay 的统一平台需要跨不同的用例集,比如计算机视觉、自然语言处理(NLP)和推荐系统。因此,开发人员和数据科学家有各种各样的需求。这是一个为期多年的平台转型。实现 Krylov 是一项打破各种竖井并跨职能和地理区域开发和执行统一愿景的实践。
为了领导该项目,我们组建了统一人工智能计划核心团队(ICT)。ICT 包括来自 AI 平台团队的代表(该团队是服务的提供者)、平台的所有者和构建者。此外,人工智能平台还依赖于硬件、计算、网络、存储和数据服务。
ICT 的第三个组成部分是 AI 领域团队,即平台的内部客户,例如广告、计算机视觉、NLP、风险、信任和营销等方面的 AI 研究和工程。对于日常的 AI 生命周期管理,这些人工智能团队已经从定义、实现和采用这个平台获益。
这些专家一起为 eBay 创建了一个统一的 AI 愿景,包括平台的战略、路线图和关键原则。这是一个实践过程。在不同的地方,来自领域团队的研究人员和工程师会以内部开源的方式参与到平台某些部分的构建。因为这些工程师和研究人员更接近领域问题(AI 生命周期),或者在过去已经为他们的特定需求构建了框架 / 平台,所以他们能够提供关键的输入。在某些情况下,有些框架和平台被纳入了“统一 AI 平台”,因为它们很好地解决了一个特定的问题,并有助于加速平台向更广泛的 eBay AI 社区的发展。
此外,我们还设立了一个 eBay 机器学习(ML)工程奖学金项目,任何在 eBay 的工程师都可以加入到人工智能平台团队中,类似于一个实习项目,帮助构建产品待办列表中的平台特性。这个奖学金项目的目的是让 eBay 工程师熟悉 ML 的概念和技术。参与者会获得来自资深领域专家的关于 ML 工程概念的指导。
内部开源模型和 ML 工程奖学金项目不仅有助于代码贡献,而且也在我们扩展我们的科学家和工程师的技能集时,作为平台开发的反馈机制。
了解痛点
在构建 Krylov 的探索阶段,为了更好地理解构建 eBay 人工智能的难点和挑战,跨不同地理位置的 eBay 全球团队协同工作。这包括理解需求和希望;对人工智能研究人员和开发人员的日常生活表示理解和感激;并研究行业中现有的方法。
分阶段构建、采用和转换人工智能的多年时间里,需要:
通过强大的计算能力(GPU、高内存多核心)轻松、安全、高效地访问数据的人工智能训练集群;
训练平台:可自动训练工作流及交互式工作空间、SDK、客户端(Python、Java、Scala、REST);
AI 模型生命周期管理:模型试验管理、模型管理服务、部署服务、AI Hub(基于 Web 的 UI)
模型服务平台和反馈循环:将 AI 模型作为服务绑定到试验框架和监控系统(操作以及模型性能)实现部署;
用于建模、部署和推断由数据发现、准备、特性存储和服务以及反馈循环组成的生命周期的数据生命周期抽象;
此外,该平台必须建立与几个关键的原则,以解决 eBay 不同数据科学家和工程团队的人工智能用例和操作模式。我们确立的主要原则有:
支持异构软件框架——Tensorflow、PyTorch、Cafe、Notebook 以及任何选用的框架;
异构硬件架构——支持 GPU、高内存 CPU;
支持大规模;
以开源的方式使用开源技术。
平台建成后,我们将为 AI ICT 团队提供预览、Alpha 和 Beta 访问,让他们提前访问并测试平台。这种迭代式的、具有统一愿景和执行力的协作帮助 eBay AI 社区为自己构建了一个统一的平台。
虽然早期的结果取得了成功,但这并不意味着我们已经完成了全部工作。人工智能是一场没有终点的进化之旅。展望未来,我们将通过 eBay 的人工智能托管市场继续创新之路,我们也会继续分享我们的发现。
原文链接:
https://tech.ebayinc.com/engineering/ebays-transformation-to-a-modern-ai-platform/