请选择 进入手机版 | 继续访问电脑版
楼主: 脑仁疼
1506 1

[其他] 互联网数字营销广告管理平台应用 [推广有奖]

  • 0关注
  • 25粉丝

副教授

73%

还不是VIP/贵宾

-

威望
0
论坛币
102 个
通用积分
82.3740
学术水平
40 点
热心指数
47 点
信用等级
12 点
经验
7688 点
帖子
571
精华
0
在线时间
150 小时
注册时间
2017-6-5
最后登录
2021-3-19

脑仁疼 在职认证  发表于 2017-12-13 20:07:51 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

互联网数字营销广告管理平台应用



项目背景及挑战
由于数字营销发展迅猛,数据源和处理方式多种多样,要求越来越高,根据AdMaster公司实际应用场景经过10多年的打磨,构建了一套互联网数字营销广告管理平台。

公司要为数千家客户提供广告监控、舆情分析、人群画像等多方面的技术支持,每天处理的数据包含广告数据、舆情数据、第三方数据等等多样化且数量较大的数据,所以我们面临的主要挑战就是:如何把每天上百亿的数据整合和计算,以满足公司多业务多产品线的需求。

AdMaster成立于2006年,是领先的营销数据技术公司,利用先进的大数据技术帮助品牌指导营销策略并预先量化营销效果。经过11年的发展,公司总人数现有员工400多人,其中本科及以上的科技人员300人,占公司员工总数的75%。公司与国际、国内超百家媒体及上下游合作伙伴保持长期合作关系,保证了公司作为数据枢纽的多方数据源对接和融合。致力于促进数字营销行业和大数据产业的蓬勃快速发展,推动行业标准的建立,并以知识贡献者的身份为行业不断培训、输入专业人才。

技术方案
方案选型与对比

对于我们面临的问题,在国内外也有很多同类型的产品平台,基本可以分为三大类,一类是商业购买的商业平台,一类是基于开源软件搭建并附加上自己的产品逻辑,AdMaster分布式混合异构大数据系统属于第三类,即对开源软件的改造和整合。下表分别比较这三种平台的特点。

20171213112514875.jpg



经过以上分析,最终我们选择了自主研发的“混合异构营销数据平台”。对于此平台的具体细节,下面分别阐述:

项目平台整体架构

AdMaster自主研发了针对不同行业领域的信息爬取系统,可以支撑电商、微信、微博、新闻、论坛、问答等多种渠道每天数十亿计的互联网页面信息的爬取,是大数据平台和AdMaster业务需求中不可或缺的文本型半结构化数据。在多维度、多结构的数据源和大数据平台强大的数据处理能力的支持下,系统中AI(人工智能)和BI(商业智能)的经验和模型发挥极大作用,数据聚类算法、NLP(自然语言识别技术)、数据关联分析、受众画像建模等等技术得以快速的发展,提升了AdMaster的技术水准和服务效率,也帮助客户获得了更好的营销效果。

20171213112604741.png



关键技术

(1)大数据数据存储与管理技术

分布式存储技术:解决元数据管理、系统弹性扩展技术、存储层级内的优化技术、针对应用和负载的存储优化技术,针对营销活动的各环节,采用不同的方案,从最底层来优化存储,并为后续的计算优化打下基础。

采用的存储方案:根据营销面向的不同行业的特性,对数据的管理、查询以及分析的性能需求,数据规模和吞吐量的增长需求,主要采用关系型数据库、非关系型数据库、实时数据库、列式数据库等存储方案。

(2)数据可视化技术

传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息。采用可视化开发工具Spark GraphX和Moojnn解决方案等技术,保证营销数据可视化应用效果,能够快速地收集分析数据并对数据信息进行实时更新。数据可视化展现包括表格、图表、图形、示意图、地图和标签云图,从而使用户能够创建简单的仪表板或者炫丽的监管信息图表和可视化效果。通过最新的HTML5技术,可最大化呈现丰富的数据内容,并兼容平板电脑、智能手机和个人计算机,实现移动监管。

(3)大数据分析与挖掘技术

采用统计分析技术,把计算推向数据并且并行处理,使Hadoop获得了强大的深度分析能力。经过算法的并行化,突破原有的可处理数据的技术瓶颈,利用并行计算模式大幅度提高了工具的计算性能,同时赋予了系统技术深度分析的能力。

20171213112721194.png



(4)人工智能和商业智能技术

把人工智能和商业智能应用于数字营销领域,AdMaster也做出了长足的努力。我们在 NLP、图像模式识别、跨设备多ID用户识别等方向取得可喜成果,并运用在了社交情感分析、DMP数据管理平台和受众分析等商业产品。秒级别内分析客户所关注的关键词的社会反响,涵盖新闻、论坛、微信和微博等等公众平台。经过历史验证,情感分析的准确度已经可以达到 70% 以上,热点事件发现延迟在 1 小时以内。让客户第一时间知道自己产品的社会影响,同时也可以知道竞品的相关情况。图像模式识别方向,采用了深度学习算法,AdMaster 应用于 Snap 监播实录的特定广告识别技术,使用自研的特征识别和匹配算法,部署在 400 多台服务器的计算集群上,全天候不停歇地对已经投放的广告时行识别,每天监控的广告数在 50 亿次以上。不仅可以识别简单的 banner 广告,还可以对视频广告进行有效的识别。这项技术的应用,代替了以往占用了大量人力的“人肉广告作弊识别”,为广告代理公司和顾问团大大降低了成本,而且监控的范围也比以前有了 100 倍以上的提升。随着手机和各种移动设备的普及,拥有两部以上的手机或电脑和其它智能设备,已经变得相当普遍,如果可以实现跨设备多 ID 用户识别,无疑可以更好的帮助广告主识别受众。AdMaster 充分利用自己多年数字营销的经验,以超过 2000 亿的的广告数据为基础,基于每秒 400w 次并发查询 的高效 key-value 查询系统,研发了多 ID 识别算法,很好地实现了一人多机的识别。

商业智能方面,AdMaster则主要致力于多维数据组合查询、用户自定义数据分析、基于 “人-事件”的受众人群分析等方向。具体来说:多维数据组合查询,主要应用于广告数据分析。基于 AdMaster 的大数据分析平台,每天分析 100 亿以上的广告数据,从 50 多个维度的各种组合来透视这些广告数据的价值,每天 5:00 以前为所有广告主提供准确的报表。使用 Web 2.0 技术,动态平滑升级,可以做到用户无感知。数据查询速度也在秒级完成。作为固定多维度查询的补充,广告系统还支持用户自定义数据分析:

AdMaster通过提供一整套的可视化数据处理接口,用户只需要在页面上点上几一,就可以按自己熟悉的语言来定制特殊的数据处理逻辑。我们提供近 100 个营销数据维度作为原材料,用户可以按时间、地域、广告媒体、广告位置、广告创意等多个细分维度计算数据的相关性,计算数据分布和其它多种指标,1T数据的处理延迟只有 10 秒以内。基于“人-事件”模型的受众人群分析系统,则按“以人为本”的使用方法提供了全方位的支持。本系统综合了 AdMaster 广告产品线、社交产品线、调研产品线和数据交换产品线等多条产品线的所有数据,以受众为中心,把所有信息串联起来,除了可以回答 “这个 ID 在什么时间什么地方上过哪些网站?”这类简单问题,还能回答诸如“这个 ID是什么性别?” “这个ID 大概什么年纪?” “这个 ID 喜欢足球吗?” “这个 ID 家里有婴幼儿吗?”等等关于人的问题, 结合上文提到的多 ID 识别,它还可以回答“这两个 ID是同一个人吗?”这样的问题。有了它,使得定向广告投放和精准广告投放如虎添翼。另外,这一系统已经作为 AdMaster 的一项独立对外业务开放。

(5)数据质量控制技术

由业务系统中获取的数据首先进入ODS,ETL引擎根据元数据规范和业务规则对ODS数据进行整合处理,正常数据进入主题数据库,完成整合,异常数据进入数据质量管理系统进行人工干预。数据质量管理系统对异常数据进行人工干预,通过人工干预可处理的批量数据进行临时库,由ETL根据新的规则进行处理。通用地干预措施形成元数据规范,进入元数据规范标准,无法处理的数据暂存到临时库,通知业务单位处理。

20171213112840718.png



20171213112853796.png



项目创新点
(1)自主研发的高并发数据采集服务端,支持分布式部署,满足全国多机房实时数据收集汇总的管理平台,兼顾备灾容错,保证数据不错不漏。自动识别服务器和数据结构的差异,并自动优化配置。

(2)基于业务线的数据特点、计算任务的特性,自动化调度优先级,智能调配计算资源。

(3)计算任务瓶颈的辅助分析工具,为研发、测试、建模等团队提供代码级的优化建议。

(4)利用页面仿真录屏系统,可以对用户浏览页面乃至广告的过程进行模拟并录屏,真实的还原页面浏览、广告播放的过程,也是重要的网页采样和信息留档数据。

(5)在日常数据采集中,采集大量地理经纬度和POI信息。对于这些数据,大数据平台会自动进行曲面几何转换后,再行存储利用。

(6)利用多数据源的整合和复杂数据结构的兼容,全方位地分析和整理多维度的数据,对于业务决策给出有效支持。

(7)为方便数据建模团队进行各种数据实验和算法模拟,大数据平台还提供了交互式的数据分析平台,支持数据建模团队使用 R、SQL、Spark 脚本等多种方式,进行实时的交互式数据分析和图表展示。

(8)针对数据结构复杂、数据源多的业务特点,设计了创新的消息队列架构,为多种渠道的数据源对接,提供了实时和稳定的消息收发支撑平台。

(9)构建了基于大数据的自动分析和建模体系,并在数据入库前的清洗阶段引入了虚假数据过滤模型(反作弊技术),模型可以动态自动学习和更新,从而在第一时间发现数据异常,并可以自动向各相关业务系统发出异常预警。

(10)在部署了该技术方案后,企业的业务能力的提升了50%,特别IT系统成本减少了超过20%,但性能提高了30%。

经验总结
在部署本方案后, AdMaster实现了多个非常理想的指标:

(1)高并发数据采集服务端,单个采集节点可以支持12000次/秒的数据采集请求, 并且支持分布式部署,从而支持全国范围的营销数据采集服务。

(2)满足全国 30 多机房实时数据收集汇总的管理平台,数据汇总延迟不超过 3 分钟。

(3)采用消息队列架构,为多种渠道的数据源对接,提供了实时和稳定的消息收发支撑平台,系统间协作零延迟。

(4)支持数据建模团队使用 R、SQL、Spark 脚本等多种方式,进行实时的交互式数据分析和图表展示。数据科学家和数据工程师可以同时使用同一平台同,同时处理上千亿的数据。

(5)信息收集系统可以支撑电商、微信、微博、新闻、论坛、问答等多种渠道每天数十亿计的互联网页面信息的爬取。

(6)可以支持大量地理经纬度和POI信息。对于这些数据,大数据平台会自动进行曲面几何转换后,再行存储利用。

经验和教训
而本平台的实施过程中,我们也踩了无数的坑,下面列举一二:

(1)由于很多开源平台(如Hadoop)不是为了这么大的数据量而设计的,在数据量大到一定程度后,会出现各种诡异的问题,这时需要有精通源代码的工程师来搞定诡异的问题。

(2)大数据时代,基础 IT 设施的建议更为重要:有很多次,我们的系统因为硬盘的突然故障和 DNS 的解析而出现莫名其妙的的问题。

(3)时间同步,对于大数据平台来说,至关重要,平台在设计和使用时,一定要考虑时间可能不同步的问题。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


wangyong8935 在职认证  发表于 2018-10-5 09:06:56 |显示全部楼层 |坛友微信交流群
关注

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 16:31