楼主: 牛领金融
1331 1

[互联网] 揭秘网易大数据实践与基于微服务的应用架构设计实践 [推广有奖]

  • 0关注
  • 0粉丝

小学生

71%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
312 点
帖子
5
精华
0
在线时间
12 小时
注册时间
2018-4-2
最后登录
2018-10-31

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
云服务、大数据应用实例&高效研发管理---软件研发沙龙中网易数据科学中心技术总监余利华从以下三方面分享了网易大数据实践:

一、网易在大数据方面做了哪些事情;

二、网易大数据建设的思路;

三、网易在大数据方面的2个工具。


网易在大数据方面的工作

网易在大数据方面的定位是充分利用数据统计分析挖掘价值,大力推进服务智能化和决策科学化,全面提升产品的规划运营水平和服务质量。


服务智能化

余利华以网易云音乐为例,说明了服务智能化的具体含义。网易云音乐在推出的时候市面上已经有了数个亿级用户的音乐产品,竞争非常激烈,之所以能够脱颖而出,就是因为网易云音乐从一开始就将个性化推荐作为核心功能来做。音乐并不像其它文本类的内容,用户不太容易表达自己的搜索需求。我们可能都有过类似的经历,偶然听到的一首好音乐,再想去听的时候却找不到了,网易云音乐能够用个性化推荐帮你找到这些音乐,帮助用户发现一些意想不到的好歌曲,给你带来惊喜。目前,网易云音乐从APP首页到歌单、歌曲、私人电台等场景已经全面实现了个性化,是一个个性化推荐深入到骨髓的产品。


推荐是个系统工程,不仅仅是算法的问题,产品和算法必须紧密配合。云音乐通过UGC歌单和个性化推荐,帮助用户更好的发现音乐和传播音乐,大大的提升曲库利用率。


个性化推荐的原理是找到人与物之间的关联,在合适的场景下把合适的物品推荐给合适的人。 这里的物,可以是新闻,音乐,理财产品等等。把人和物关联起来的方式通常有三种:

通过人关联,与你相同喜好的人喜欢的物品,或你的朋友推荐的物品,你通常都会喜欢;

通过物关联,因为奶粉和尿布是有关联的,如果用户买过尿布,那么推荐奶粉给他;

通过特征关联,摇滚是音乐的一个特征,如果一个人喜欢摇滚,那么推荐摇滚歌曲给他。


通过关联,我们就召回了很多候选商品,它们都是有可能和人发生联系的。在召回之后,要进行过滤,比如你在最近七天买过一个商品,通常会将这个商品过滤掉。过滤之后,就得到一个候选商品的列表,这时候要对商品进行一个多维度的打分,把你最可能喜欢的商品推荐给你,这就是一个基本的推荐过程。


类似服务智能化的应用场景还有很多,比如邮箱反垃圾,客服机器人,反作弊,金融反欺诈,视频鉴黄等。


服务智能化通常的工作流程是这样的:

1. 形成想法,想法可能来源于数据的分析,然后寻找特征,增加场景;

2. 从特征中设计方案,引入算法,调整方案,进行模型的训练;

3. 效果验证:一般分为离线评估,线上A/B测试两类,只有发现效果好的时候,才真正让这个算法上线。


决策科学化

决策科学化,是指让数据来辅助决策,比如投放广告的过程中我们通常会这样做:


1. 找到目标用户:用户多维度分析,确定投放目标用户群体;

2. 分析投放目标:基于投放群体,筛选投放渠道;

3. 监控投放数据:实时监控投放数据,快速调整投放策略;

4. 构建用户质量评估模型,评价用户质量;

5. 评估投放效果:ROI评估,发现更优质的渠道。


决策科学化还有很多应用场景,比如电商定价、促销设计、功能上线、留存分析等。


决策科学化的工作流程:

1. 度量:部署实施数据采集,实施数据转化与加工,建立度量指标体系;

2. 洞察:数据探索、建模、假设检验、用户研究、形成理论等;

3. 干预:设计方案、实施实验、评估效果、推广应用等。


网易大数据建设思路:一个中心,两个平台

做好大数据业务需要很多东西,比如你要有很好的想法,比如你的算法工程师要很厉害,懂得很多算法,但一个成功的大数据应用关键在于两点:有数据+快速改进。


听上去很简单,但在实际开发过程中,还是面临很多问题:


1. 数据孤岛的问题,你会发现你的数据散落在各个地方,可能在业务中,也可能在你服务器中的日志中,想用数据的时候找不到;还有一种情况是公司各个部门间的数据不共享;

2. 数据资源缺乏管理,由于数据的规模很大,再加上人员的流动,没有一个人完全清楚所有数据表中每个指标的含义,导致数据的使用效果不好;

3. 数据开发的门槛很高:首先是知识的门槛,专业的数据开发人员很难招到,他们要学习Hadoop、Spark等各种相关技术;另外,使用上也很麻烦,要把这些开源的东西放在一起,组成一个解决方案。

4. 分析流程长,涉及的人员多,决策周期长。


网易的解决思路是一个中心,两个平台。一个中心是指数据资源中心,数据资源中心会集成所有有价值的数据,进行数据的融合和深加工,目的是打破各个产品的数据分界和壁垒,提高利用效率;两个平台分别是大数据管理与应用开发平台(猛犸)和数据分析平台(有数)。其中,猛犸会存储和管理整个公司级别的数据资源,提供高效、易用的大数据分析挖掘应用开发环境,提供大规模查询和计算能力;有数用来支撑产品分析与决策,产品营销推广。通过数据资源中心的建设,可以使得所有数据都在平台上,想用可以直接去用,降低了门槛。


大数据管理和应用开发平台

接下来,余利华介绍了网易大数据管理和应用开发平台猛犸,整个大数据平台的建设思路主要是满足效率快的需求,仅用开源的Hadoop是不够的。把Hadoop引进来经过改造成为适合我们自己用的体系化的大数据平台。


最底层是元数据、数据湖和资源调度。表定义、权限和数据血缘关系都属于元数据的范畴。数据湖就是统一存储数据的,通常是HDFS;资源调度其实就是分配CPU、内存和磁盘这些资源。我们会把整个数据资源都放在数据湖中,然后用元数据去描述它,这样就建立了一个企业级的数据仓库,统一去管理数据。


再上一层是计算层,包括实时计算、离线计算、Adhoc查询等类型,各种引擎是有机整合的,就是在数据湖中的同一份数据,既可以用Hive来查,也可以用Spark来查,还可以用Impala来查,而且各引擎在权限控制上也保持一致。另外,离线计算和实时计算也是融合的,一个实时计算的任务可能去查离线计算的表,实时计算的表也可能会归档为离线计算的表。


再上一层是用户的使用界面,包含一个可视化的开发界面和统一的SQL语言开发。


最上层是各种应用,比如考拉、严选、云音乐等。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据 网易

沙发
牛领金融 发表于 2018-7-9 14:47:07 |只看作者 |坛友微信交流群
7月15日,网易大数据总经理余利华将出席2018浙江省大数据产业峰会,对网易大数据进行更详细的分享。牛领将对全场会议进行视频直播+图文直播。

会议预约地址:
https://h5.newlly.cn/live/108

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 05:58