大数据解读 —— 阿里巴巴御膳房架构解密
早在2008年,阿里巴巴即确定了云计算、大数据为中心的DT战略,并在云计算底层平台的搭建上取得了令业界瞩目的成就。同时,大数据的业务尤其是基于淘宝、天猫等电子商务平台的大数据业务也是风生水起。早期“淘宝指数”、“数据魔方”不但让用户有了耳目一新的体验,更为店铺卖家提供了运营管理的数据工具。有了云计算的稳定可靠、高弹性、大计算能力之后,阿里内部的大数据应用迎来了井喷式的发展。
2013年3月,阿里巴巴基于飞天的ODPS搭建了“御膳房”数据引擎业务(clouddata. taobao.com),就是在探索将数据转化为生产资料来激活生产力。阿里巴巴打造了一个开放的数据厨房,提供了最优质的原材料、最锋利的工具,让ISV、商家、非电商用户这样的大厨师能够快速实现大数据应用的各种idea。
上线后不到一年多的时间,与御膳房深度合作的第三方服务商已经超过300家,提供了包含流量推广、商品管理、数据分析、CRM、ERP、广告精准投放等多个支撑工具,覆盖了180万天猫、淘宝商家。
目前,御膳房已经开放了商品、商家、客服绩效、品牌、行业五大主题数据,并提供了额外的数据仓库和有良好组织的各种数据供开发者加工和使用。通过御膳房,专注数据的商家及相关服务商可以选择自己所需要的数据主题并完成定制化的数据开发工作,相关的数据聚合结果以API接口的形式发布使用。
御膳房的出现,是基于淘宝的电商生态系统发展到一定阶段的必然需求。淘宝上不断涌现的大卖家和品牌商,以及服务于众多电商的ISV(独立软件开发商),发展到一定阶段都会面临的问题是:如何实现全链路数据的计算、存储、交换和分析?事实上,在淘宝平台、CRM、库存甚至其他各类第三方系统中,那些已经沉淀下来的数据往往都是彼此独立而分散的,如果这些数据能够在统一平台上实现聚合,将释放出更加强大的能量。而这些大量的数据,光靠ISV自己的机器是无法完成计算的,需要有更强大的计算能力。
御膳房应运而生,成为对外可以提供包含大数据计算、存储、挖掘、分析在内的一站式大数据服务平台。
御膳房架构图
具体来看,御膳房能够为开发者提供:
2 完善准确的基础指标定义、计算口径、检验工具等,确保数据标准、唯一可靠。
2 云数据中心(仓库)解决方案,离线分布式计算平台及强大的算法环境,自主提交计算任务,自主开发模型挖掘数据价值,大数据计算快速响应。
2 支持隔离的数据存储、独立的数据任务部署,确保御膳房内的数据交易与数据开发安全。
2 根据需求灵活定制API,数据输出符合TOP API规范。
2 R、Python、Xlab在内的主流大数据挖掘工具,支持模型研究与快速迭代试验,提升数据价值。
在数据开发方面,御膳房不仅提供了Eclipse开发插件来辅助MapReduce开发与调试,还提供了Eclipse开发插件来辅助UDF(User Defined Function)开发与调试。而在算法分析上,御膳房更是提供了从Hive/UDF、MapReduce、Python、R到Xlab/Xlib(Xlib是ODPS的分布式算法库,支持分类预测、回归、聚类、关联分析、矩阵计算等)的“工具链”。作为一站式数据挖掘平台,工具可自由选择,两两之间都可协同工作。随着新版本正式上线,御膳房还提供了对接RDS数据库数据上传、新建表复制表字段、补历史数据等功能。
随着业务的爆发式增长,数据正在成倍增加,汇集成海。而要使数据产生更高的价值,不同数据之间的交换和分享必不可少。御膳房目前已经提供包含商品数据、店铺数据、行业数据、品牌数据、聚划算数据、广告数据、气象数据、用户标签数据在内的多种数据类型,以及销量预测、复购分析、购买预测、IDmapping用户匹配、人群透视、用户行为等多种算法模型。
未来,御膳房会更加开放。御膳房会进一步强化多租户理念和架构,还将联合更多的如MSTR、Cognos、数云和Tableau等第三方伙伴建立起用户(租户)数据中心和其上的App生态,并希望在电商以外,联合更多的如气象、交通、物流、制造等传统企业,实现数据的进一步交换和分享,为打造大数据生态而努力。
御膳房的使用者分类如下。
2 淘宝商家:存储、管理电商数据资产并通过应用进行数据化运营。
2 独立软件开发商:获取丰富的数据源,通过解决方案开发优质的服务或应用。
2 企业&组织:构建企业云数据中心,通过数据引擎深入洞察数据,提升企业效率。
2 科研机构:利用大数据探索工具从不确定的数据中发现智慧与创新。
御膳房提供的产品具体如下。
2 数据中心:提供安全、灵活的数据资产管理中心,帮助客户进行数据化运营。
2 数据引擎:提供数据开发、应用开发、大数据挖掘引擎,帮助客户探索数据以研发数据。
2 数据市场:提供开放、安全的数据交易平台,促进客户的数据交换和增值。
2 安全产品:提供多种安全产品和服务,保证数据安全。
—— 资料来自段云峰、秦晓飞老师的《大数据互联网思维》一书


雷达卡



{:0_248:}
京公网安备 11010802022788号







