2017年中国数据分析师行业峰会:大数据与金融_分会场(五)-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 考研考博>>

考研

>>

2017年中国数据分析师行业峰会:大数据与金融_分会场(五)

2017年中国数据分析师行业峰会:大数据与金融_分会场(五)

发布:admin_kefu | 分类:考研

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

2017年中国数据分析师行业峰会:大数据与金融_分会场(五)主题:大数据与金融时间:2017年07月29日下午地点:中国大饭店主持人:欢迎大家来到大数据与金融的分论坛。今天分享的嘉宾老师是:IBMAnalyticsLBS首席数据 ...
扫码加入财会交流群


2017年中国数据分析师行业峰会:大数据与金融_分会场(五)

主题:大数据与金融

时间:2017年07月29日下午

地点:中国大饭店


主持人:欢迎大家来到大数据与金融的分论坛。今天分享的嘉宾老师是:

IBM Analytics LBS首席数据科学家李峰

诸葛IO产品VP于晓松老师

集思录副总裁郑志勇老师

R的极客理想作者系列图书作者张丹老师

天云大数据CEO雷涛老师

北京赛智时代信息技术咨询有限公司CEO赵刚老师

首先有请李峰老师跟大家做分享。



李峰:大家下午好。我叫李峰,来自IBM实验室服务部。很高兴有机会跟大家的分享一下IBM过去在银行,尤其是在银行审计部门所做的一些研究的工作。我们在讲今天下午主体意是大概分这几个部分:第一,简单介绍一下什么是审计。审计面临着的一些业务问题,IBM在给出商业银行整个大数据分析审计平台的方案,介绍一下里面涉及到的相关核心技术和方法论。后面再讲两个比较有意思的基于模型的案例,还介绍一下审计里面的业务场景,以及通过做这个平台案例的清单,最后是一个简单的总结。


审计其实是银行整个控制风险三大防线里的最后一道防线。我列了几个实际的案例,现在在国内出现了非常多跟银行风险相关的事情,比如飞单,今年上半年民生银行出现的16个亿飞单的场景,还有反洗钱和反恐融资等一系列的事情。随着这样一系列事情的发生使得银行的审计变得越来越重要。可以看一下银行审计在银行里处于什么样的地位?可以看到这是一个简单的事例,是说一个商业银行有股东,有董事会,审计部实际是凌驾于业务部门一个非常重要的地位。我们做审计的过程中其实非常多的步骤,包括从审计项目的开始,做各种各样的分析,审计项目的评估,最后项目后续跟进一系列的过程。在这里传统的我们在做审计的过程中,其实大部分都是人去现场,我们叫非现场审计。很多一部分的人,比如说在一些商业银行,它们的审计部门的人在过去做审计的过程中都会有一半的时间是在出差的。我们在跟几家商业银行合作做审计分析项目的时候,它们很大的一部分时间都是在各个分行或者是说各个地方去做各种各样审计的工作。这样的话使得,我们是说在审计过程中面临的非常大的一个问题,就是我们讲到的这几大问题:第一,我如何在我的审计部门人力资源有限的前提下如何保证我的审计目标,能够精准的达到审计要求。在这里面临着一个非常大的问题是说我尽可能的做非现场审计。做非现场审计的时候如何拿到数据,如何精准的找到审计的目标,如何发现现在业务过程中一些正常状态的一些异常的情况。比如说信用卡,大家都正常的刷卡,我如何发现信用卡套现的一些行为,我如何发现大家在理财交易过程中一些非法或者异常的行为,我如何发现业务人员通过控制着一些帐户去做一些非法的交易。我们在保证审计模型的持续有效,因为基于规则或者经验的审计方法和模型,其实是让别人知道的,很容易能够避免这样的一些事情发生,比如说一个最简单的方法,过往在发现网络赌博的时候,发现每次赌博的钱金额可能是一百或者一千或者两百这种整数倍,这样开网络赌博的公司为了避免银行去监管,去发现这样的赌博行为,把钱从一百变成99.9,或者101,把这种非整数的策略的变化,如果采用基于规则方法去做的话,其实很难发现,这样的很容易避免掉。所以我们讲审计的时候道高一尺,魔高一丈。我如何能够在满足我的审计目标的前提下我又能够适应现在的变化。所谓的变化就是刚才讲到的,就是从100变成99或者变成101这样的一些变化,还有业务的一些变化,像过去取10块钱或者20块钱,大家的消费是这样的水平。但是到今天这样一个发展的时代, 我们去超市,可能是100、200甚至1000,这样从20到100、1000的变化,这个变化如何在模型反映,来保证模型持续有效迭代更新的过程?所以这是我们面临的第二个问题。


在审计中还面临着一个问题,因为银行在做审计的时候有一个保密性,就是不同的部门的人参与业务是需要看到一些相关的数据的,比如说银行内部很多员工的私密的数据,还有很多帐号相关的信息,它要如何来保证参与这个审计项目的时候能够有效看到有用的数据。结束了这个审计项目之后这些数据我再也看不到了。所以它是希望能够保证数据的有效性,就是要一个数据实效。


还有一个问题,在不同的部门,不同的机构,尤其像工行这样大的机构在每家分行里都有自己的非常资深的一些审计专家,这些审计专家的经验和策略,还有他们构建的审计的模型,如何能分享、共享到全行来?我们说希望通过一个平台或者方法能够现实现。


为了解决上面的这一系列的问题,我们说希望能够通过基于数据驱动的数据挖掘模型和大数据的分析的平台来解决上面的一些问题,我们叫商业银行审计大数据分析在线自助分析平台。在这个平台后面我们会介绍很多平台里可能会涉及到的一些点的功能。这是我给出来的审计分析平台的样例,大家可以参考一下。在最底层是大数据分析平台,就是数据这一层,可以是关系型数据库,可以是MySQL或者芒果DB,在这个平台上我们需要构建更新一系列的工具,就是基于这些工具构建我们算法、模型和应用。在这里我们列了一下,像可视化的方法,我们分析的工具像SPS等等一系列的算法,支撑的分析工具都可以支撑它。在这个基础之上涉及到非常多的算法和模型,比如分类的,聚类的,时间聚类分析等等一系列算法和模型。基于这些模型基础之上,我们会构建一些一系列的业务场景,这样的业务场景其实是我们在说我的审计的目标,比如说刚才讲到了我们的信用卡套现,我们的网络赌博,反洗钱,反欺诈,一系列的相关的模型,在这里我大概里了一下我们能设计的一系列项目,比如我们保证数据的安全,有一些审计权限等相关的事情,比如保证模型的更新迭代,共享这样的一些事情,做模型的定制,模型的审核、发布、优化、更新迭代一系列的过程。为了保证这些一系列过程是能够顺利的执行下去的,其实我们有相关的支撑系统支持它,比如我们有通知子系统,告诉你数据做好了,可以在哪儿看到结果。比如作业调度系统,去做优先级优化的配置。举个例子,在银行每个月都要做相关的审计工作,发现这个月这家工行里套现的银行卡是什么水平,参与网络赌博的人员是什么样的,反欺诈的一些行为,贷款的风险一系列的事情,像这种规则性的、周期性的调度的模型的方法,我们系统可以支撑它做这样周期性的。模型的训练和优化就很难,我新的模型,不够理想怎么来触发,实际上这些事情都需要作业系统来调度支撑它的。在此基础上我们会支撑,根据他的一而业务场景,然后根据他的一些应用的人员,比如系统开发部门的人,业务人员,数据管理部门,每个人有相关的应用和相对应的API工作来支撑它。


这里重点介绍一下在我们整个分析平台里一个非常核心和关键的一个点,就是整个模型的全生命周期管理。我们讲模型前生命周期管理有几个概念是要说的。第一个,模型的自动更新迭代的过程,还有就是我的模型怎么上线到我的平台里来,能够保证模型的结果和应用和业务去做对接等等一系列的事情。刚才介绍的平台里我们把一些输入和输出的都做了一些分装,做了一些模块化的东西。比如原始数据从Oracle或者DB2或者芒果数据里的数据,我如何变成我的模型特征?在这一系列的过程里我们会把它作为一些数据加工和服务的分装,像通过ETL的一些能够把原始数据加工成我要的集成数据。这是前端数据的过程。


在后端模型做好了的一些结果,然后这个结果如何和现有的业务系统,比如客户关系管理系统,报表的系统,风险分析的相关系统去做对接。在这里我们是说我们通过模型的定期的运行,我们会把结果写成像报表的形式存在一个数据库里,同时基于这个数据库的表格会提供一些可视化相关的服务。通过API的形式可以提供给跟业务部门去做对接的形式。


刚才讲到还有一个很重要的概念,是说我的业务,其他地方的非常资深的专家,他所构建的业务经验如何去共享、分享?这里我说了模型审核发布和共享的过程,就是我定义好我模型的规范,输入是什么,输出是什么,我API的构建。定义好之后我通过验证,通过数据链把离线的模型都构建好。构建模型的整个过程是数据分析师或者数据科学家干的事。在建模的过程,我们所有的模型其实是为业务部门去主导的。我的模型的结果是不是能够满足我的业务目标,能够达到我的业务要求,其实是一个很重要的。所以我们有审计审核的过程。只有保证了模型业务目标的前提,模型才会共享到这个平台里来。这就是整个平台核心的关键的一些点。


基于这样的一些分析的时候,其实这个平台里涉及到的相关技术和方法,大家都讲数据挖掘也好,讲数据分析也好,讲人工智能,机器学习也好,其实里面涉及到非常多的技术和方法,所以我今天也有点卖关子的意思,就是我们这个平台包含了哪些相关的技术和方法。首先,里面很重要的数据管理集成和分析。这里非常重要的两个点,是说我要知道我的内部数据和外部数据如何进到我的平台里来,如何保证数据质量。这里有一个概念,叫数据治理。数据治理主要的核心的一个目标,是说我要保证我的高质量数据能够被我的业务系统去支持,去利用,去服务。里面一个非常重要和核心的,非常有挑战的问题,就是现在的外部数据越来越多,各种各样的数据集成是一个非常难的一个问题,比如说我叫李峰,叫李峰的人非常多,那怎么拿到这么多量的数据里,这个李峰的各种相关的数据,比如他的消费数据,他的社交数据,他的媒体数据,都是我本人的。所以需要做数据的管理和治理相关的事。所以这里我们大概列了一下,就是银行里的传统的数据和银行里所涉及到的新型的数据,还有我们讲到的一些外部数据。在做审计部门的时候其实外部数据是非常非常重要的一些方面,我们需要做我们审计过程的补充。比如说个人和企业的征信数据,个人、企业涉及到的经济纠纷相关的数据,还有互联网相关的等等一些社交媒体的数据,甚至可能跟经济公开的一些数据等等都可能会用到,比如牵扯到宏观经济形势,比如说我们在做审计,尤其做贷款风险分析的时候会发现行业或者某个地域,今天上午的时候吴海山跟我们介绍了一下鄂尔多斯的房地产的情况,其实那样的一些地域的风险的影响因素,一些点对我们在做银行贷款风险的时候一定是非常有用的。所以这是整个数据的情况,我们在这个平台里我要保证我的数据质量,我高质量的数据进到我的平台模型中来。


基于这样的一个平台的时候,里面我们就可以涉及到非常多的算法和模型,这是我们初步进到数据分析师和数据科学家这个团队中来的时候,大家想有这么多算法,有这么多的模型,有这么多技术我怎么开头做这件事?比如跟统计学相关的,我们有时间序列分析,回归分析等等。跟数据挖掘相关的聚类、分类各种各样的算法。这么多的东西我们都可以为我所用。而且现在像现在很多工具,这里所说的算法和模型都是一两句代码就能搞定事,所以为我们提供了非常好的开源的工具为我所用来做这样的事情。


刚才讲到了跟机器学习,其实还有一个很重要的因素,就是我们讲的代表图。这是我举的一个社交分析网络模型,可以看到在银行里能涉及到的网络包括什么,贷款的网络,交易的网络,集资的网络,等等一系列的事,我这里举了两个例子:一个是做担保和互担保的,其实这两个一直是银行在贷款风险里非常关注的点。但是在银行做担保和互担保关系的时候有一个非常难的问题,就是银行只有自己的数据,它没有其他行的,我不知道我的企业在其他行是什么样的情况。所以我们会需要借助一些外部的数据,比如说银行征信的数据,比如说第三方的各种新闻相关的数据,比如说企业上下游一些关系的数据,来构建我整个的贷款的一些网络,来发现我的贷款风险。我的右边一个非法集资的帐户,大家可以看到这里我列了一些点,标红是我们发现在做非法集资的一些资金的掮客,或者说最后资金的着落点。在那里大家可以看到从社交网络分析的角度看,这就是一个聚集点,或者是说资金的转入、转出点,但是我们怎么判断这是一个非法集资的帐户,他是一个资金掮客,其实这上面有非常多的特征。我给大家举几个例子,第一,做资金掮客,他的资金沉淀在他的帐户里基本上不会超过三天的。第二,他的资金转入和转出的量基本上是平衡的1比1的状态。第三,资金转入帐户会比较分散,但是资金转出的帐户会比较集中。等等一系列的特征是能够帮助我们更好的来辨认整个非法集资里资金掮客也好,或者说是真的做非法集资的帐户。但是这里一个非常大的问题,就是我们讲基于传统的关系型数据库或者关系型图的时候是有局限的,所以我们有了一个新的技术,叫图计算或者数据库这样的方法,这样可以帮助我们处理一级的节点。右边我们做了一个介绍,基于图数据库的方法,我们构建这个平台的时候是把这些开源的基于图,数据库和图计算相关的算法和技术涵盖在这里。


最后,是讲可视化。大家在讲数据挖掘也好,讲分析也好,讲数据科学也好,其实可视化是一个非常重要的一部分。有很多的问题可能通过一些可视化的手段或多或少就可以找到一些洞察。基于这个洞察可能就会构建一系列的相关的特征。基于这个特征可以更好的提升我模型的精确度。这是我们在建模之前。建模之后通过可视化能够更好的帮助业务人员,帮助管理人员去指导他提供一系列的相关策略、决策、支持的一些事。我们把可视化分成了三个递进的层面,最简单的就是报表的整治,像柱状图,饼图,还会有一些钻取,基于时间的,地点的,跨度的等等一系列方法。最后是基于数据挖掘和分析的策略,然后提供一些更深层的可视化的方法,然后去给我们提供更好的决策和支持。



这是刚才讲到平台里涉及到的相关的技术和方法。这块如果是做数据分析师或者数据科学家应该对这个方法论非常的熟,我就说一点。在这个方法论里分成了六个步骤:商业理解,数据理解,数据准备,建模,评估和部署。这个过程其实是螺旋上升的过程或者是递进迭代的过程。在这个过程里不管是做数据科学家的职位也好,或者是说做业务职位也好,或者是只懂数据只从数据角度出发做这个事,其实都是可以的。


下面我会用两个例子简单介绍一下我们在整个审计分析平台里我们可能涉及到的跟大家说到的一些业务场景。第一个,我们把它叫信用卡套现。大家可以看到信用卡套现其实我的输入数据是这三类:第一类,个人相关的信息。第二,信用卡的消费记录信息。还有一类是根据消费对象的商户信息。为什么把这个信息放进来呢?大家肯定知道我们做信用卡刷卡的时候,银联是要收费的,而且不同的商户的收费是不一样的。比如像餐饮,像酒店的费率相对来说比较高的,但是对某些行业相对来说比较低。我们去做信用卡套现的时候,我肯定是要用非常少的成本去做这种套现的一些行为。我这三类数据我怎么来发现我的信用卡是套现行为?大家想一想大家做信用卡套现的目的,他套现的主张是什么?比如最简单,我会尽可能利用我信用授信额度,比如我是10万授信额度,我可能每个月用到九万九。第二,我尽可能的利用我的免息期,比如30天、50天这样的免息期。第三个,我会尽可能在我套现成本比较低的商户里做这样的事。如果说我做套现我可能只做一次,在做一次的时候可能发现不了,但是要做多次,比如说上个月做了,下个月做了,这个月也做了,会有多次频繁的行为在。所以我们讲审计核心的话其实是找到正常交易里的一些异常的交易。所以做套现行为的时候也是一样,因为大家做信用卡消费的时候,是尽可能避免正常,可以看到正常人消费基本上是从1号到31号基本上是一个平均的消费行为,但是对套现行为的话他可能就集中在比较靠前的。所以基于这样的一些方法和模型我们构建出来,然后在几家行我们做了非常好的验证,而且基于我们这样的方法可以节省它大概90%的人力成本。就是基于之前的话他基本做一个月的,好几个人去现场做,现在基于我们的模型和方法基本上只要去做验证就可以。


刚才讲到了关于关系网络的挖掘和分析。在构建的时候可能希望应用到各种各样的方法,包括文本分析的技术,把这个图构建出来,这是它的核心。构建网络之后,后面我们会发现它们一些相关的关系图,这里是分析的结果,这家行里面,我们会发现它有一些互担保,联保或者链保这样的关系,我们可以看到在它的22万帐户里发现了有9千多帐户之间是存在互担保的关系。对它来讲会出现风险。其实在互担保的关系里如果其中的一家企业或者多家企业出现了风险,整个担保的风险就会非常的高。这就使我们避免了风险。


刚才讲到了这个平台,我们过往我们做过的实际的案例。基于这样的平台加模型的方法,帮助到很多行做了非常好的工作。这里我列的是审计,其实还有一些跟精准营销,跟其他业务相关的事。


总结:我们讲到了利用大数据分析方法,基于数据驱动的技术,我们希望能够借助平台和模型两方面的发力,能够帮助到银行去构建它的整个的分析的能力,然后去提升它的银行业务水平。这里我列了一些好处:我们这个平台还有一个好处,今天上午有一个叫PASO,大家上午听到也会看到,其实我们提供端到端,从数据到结果一整套的方案来解决这样的问题。好,我的介绍就到这里。谢谢。


提问:我想问一下关于银行信用风险贷款部分,在行业当中建模的时候,除了WOE,还有计算它的IV值在代入模型当中,还有什么方法可以提高它的预测的准确度吗?


李峰:这是一个非常好的问题。因为我们在做信用评级或者风险的时候,比如说银行其实基于之前的一些方法和技术,刚才讲的,它是随着P2P公司的发展,一些新的数据进来,新的信用评级的策略会把它加进来。比如说我们会把他手机的还款消费的信息,信用卡还款消费信息,他的可能涉及到的风险相关的,比如贷款风险,还有跟他个人信用征信相关的一些信息综合起来,然后会给他提升他整个信用评级的标准。其实这是单纯的从银行自己本身,还有一部分刚才讲到了,是说我不单纯的拿到我本行的数据,如果能够拿到外行的一些数据,如果能够拿到银行征信或者银联相关的数据,然后再加上外部的一些数据,综合起来一定是能够来提升信用评级的。其实这块我建议你可以看一下现在P2P公司,或者说互联网金融公司在做的信用评级,你申请贷款的时候他会考虑你这些相关的因素,比如说你的住房,你的车,还有你平时的消费,等等一系列的行为,都是可以来反映你的信用评级的。


提问:逻辑回归、随机森林这些算法来讲,在实际中会有哪些比较有实际的用途呢?


李峰:这是一个好问题。因为你刚才讲的这三个基本上都是分类的问题,都是分类的算法,其实我们在讲逻辑回归,随机森林的时候,我们在解决分类的问题,在银行有非常多的分类问题,比如信用卡套现,信用卡逾期风险,去获客,很多问题都是分类问题。只要是分类的问题都可以用你讲到的这些算法去解决。


提问:可是有些问题,我们怎么解释呢?


李峰:至于模型可解释性来讲的话,每个人对整个可解释性理解是不一样的。对业务人员来讲肯定是希望他用业务的逻辑,业务的语言去描述它,我能够理解它,所以希望模型是有可解释性的。比如我们在讲决策数,我们在讲随机森林,我们在讲逻辑回归等等,可能都会涉及到某些变量,就是它的重要性。这些变量的重要性是能够反映我在构建模型的时候我知道哪些特征是非常重要的,我能够更好的反映我的业务。这是从模型可解释性方面业务人员所需要的。还有一方面类似于极客,我就要把我模型的精确度,召回率做的最好,至于模型的可解释性就不需要。这是两个策略和思路。从银行策略专家角度来看,他是希望把这个可解释性和业务去做一个对接,这样才能够更好的反映他的业务场景。所以我们做数据挖掘建模一个很关键的思路是什么,我们要找到我反映这个问题的物理本质。它的物理本质其实就是你所说的业务可解释性的另外的一个层面的解释。所以我们构建数据挖掘模型它的本质思想就是找到反映这个问题本质的物理含义是什么。

提问:评价这个模型到底是不是适合它呢?


李峰:这就是你的业务目标来驱动决定的。比如你要解决你的获客,或者你要解决你的风险,只要能达到你的业务目标,这个其实就够了。


主持人:谢谢。下面有请诸葛IO于晓松老师跟大家分享深入金融场景的数据驱动与应用。


于晓松:大家下午好。很高兴有这样的一个机会,能跟大家一起分享一下数据驱动在金融领域的应用。金融是一个非常专业也非常庞大的一个领域,这里边数据可以发挥的作用,可以创造的价值是非常非常多的。我是来自一家提供数据服务的公司,叫诸葛,有一款产品叫诸葛IO。简单说一下我们做什么事?我们是服务于企业,帮助企业利用数据来驱动业务优化这样一家公司。再具体,我们做的是比较窄的一个地方,就是数据很多,能够优化业务的数据也非常多,我们主要专注在线上的用户行为的数据。基于这个我们做了两方面的工作:第一,底下大家能看到的,我们有一套平台,它能够帮助企业非常简单、非常便捷的去把线上用户的行为采集起来,我们通过SDK等等去做数据的采集。然后整个数据的处理转化的工作也是可以直接做,做了以后进入数据仓库。这是底下的这部分,就是对数据这块,实际上我们可以帮助好多企业省去大量的工作和研发工作,包括一些数据清理的工作,直接把一些结构化的,非常标准化的数据给采集上来。以这些数据为基础,我们会针对企业的各项业务提供相关的衡量、分析和优化的支持。具体比如说面向市场,面向运营的,包括面向产品类的工作。


回归到金融,在我们诸葛经验里我们为互联网金融公司提供的服务多一些,所以我今天举的场景是和互联网金融有关的。因为在座的有好多人对互金的业务不是特别了解,我这里简单介绍一下。互联网金融业务也分好多种,我举例的是做投资理财的企业的产品的用户。对于一个在线上通过APP或者网站来向C端用户销售各类理财产品,帮助用户完成基于互联网完成投资的一项业务,用户大致体验流程是这样的,首先企业会在各个渠道做投放,比如通过百度关键词或者今日头条等等可以投放的渠道来进行投放。投放以后这个时候有感兴趣的潜在投资者他们会被吸引过来,吸引过来就会点击这个广告然后进入这个站点。然后按照引导一步一步完成他的注册,银行卡的绑定,以及他的投资行为的发生。这里边是一个简化以后列出的图是这样的。如果把这个再丰富一下的话,他大致的过程是从上到下的这样一个过程,就是上面有各种投放,投放以后进到你产品的线上的应用或者APP之后,会通过各种分类导航,搜索等等去选择他感兴趣的这里面的产品,然后可能会注册,实名绑卡,需要充一些钱,像第一次投资需要一千块,可能会充一千块。充万以后就开始进行投资,去买一个具体的产品,比如根据他的偏好,他可能觉得稳一些的,选择一个基金型的,像期限三个月的。买完以后,到期他会赎回,然后体现。这中间也有一些人可能会继续投资。当然中间也有一些特别的人,就是跟前面李老师讲的有关的,就是有些人实际上会利用这些互金平台它业务上的特点来赚取一些过高的收益。因为一般的互联网金融平台它们对新手都会提供一些补贴或者优惠,比如说会有一些产品,它的收益率比其他的高很多,它的时间可能会比较短,让用户能够快速的体验到基于互联网投资的便利性。这个时候催生了,专门有一些人,就是所谓的羊毛党。这里大致是这样的一个业务模型。基于这样用户的流向,企业涉及到营销推广上的,就是运营活动的组织,理财产品的上架,包括整个平台的产品设计,等等这样的工作时间都是在典型的互联网金融企业在做的。


这里我会针对几个具体的场景讲一讲数据在中间能发挥什么样的作用。从获客开始,每个互联网金融的平台它们都会投入很多的人力和财力去获取新用户。因为一家成功的或者说比较大的互联网金融平台,它必须有一个相当大的用户基础,所以拉新是他们的一个非常重要的工作。拉新的方式有很多种,可能会通过广告的投放,然后通过组织一些线上活动,通过一些自媒体,一些有趣的内容和活动的传播等等,方式非常非常多。基本上每一种手段,每一个渠道基本上都是要投入一些成本的。这些投入的成本最后效果到底什么样实际上是可以去做的。传统的方式是什么呢,像打广告,这可以拿到几个数据,第一,会在不的渠道打广告的时候会知道这个广告曝光了多少次,点击了多少次,这个数据基本分媒体,甚至细到分广告位能拿到的,投了一百个广告位,能精确的知道这一百个广告位有多少曝光和点击。但是往后往往是互金平台在业务系统里记录下来用户的注册,绑卡,交易等等一些核心的业务数据。但是这些数据跟前面的投放没有关联的。所以这中间能做的第一件事,把这个拆细。像今天有一万个人注册,这一万个人其中有三千人绑卡,三千人里又有两千人在注册当天完成了第一笔投资。如果我们能够把这个数据拆开看的话,我们能够清晰知道这一万人里可能来自搜索引擎的是多少,来自今日头条的是多少,来自朋友圈广告的是多少,这三个分别带来了多少用户,带来的用户又有多少完成了绑卡,多少人完成了第一次投资交易。如果按照这个渠道打通的话,实际上我们能够很轻松的衡量出每一个来源渠道的投入产出比是什么样的。拿到这些数据我们渠道人员在有限的市场投放用到更加有效的渠道上。这个主要的方式是两个:第一个,从流量到曝光,到点击,到注册,到绑卡,这一系列用户的行为在单个用户上。假如今天有一个投资用户,我能从前一直追溯到他什么时间注册的,从哪个渠道来的,什么时间来的,基于这个一张简单的表就能够帮助市场人员完成衡量和优化。


第二个,转化。我们做投放的目的是吸引更多的人来到互金平台。来了以后我们接下来要做的就是让这些人能够尽可能快,尽可能多的转化成我们投资的用户。当然如果是其他类型的互金业务,比如说是网贷的,我们可能希望更多的人转化成贷款的用户,当然前提条件是他有还款能力,还款的可能性比较高。所以还款这块核心业务如何提高流量用户达成交易的转化率。对于这样的问题,当把用户行为数据引进来之后我们得到了两个有效的手段:第一,对互金平台的产品功能进行优化。第二,针对用户进行精准的有目的性的触达。功能优化进行转化,我举个例子,比如这样一个互金平台的官网首页,当我们把用在这个官网首页每一个用户的每一个行为都记录下来以后,数据叠加到这里可以得到这样的效果,这里把人分成两类,一个是已经投资的用户,一个是没有投资的用户。对于这样一个平台官网首页实际上承担的功能比较多的,承担的职责比较多,其中一个重要的就是让未投资的用户尽快的转化成投资的用户。就是在首页上呈现的内容能不能在第一时间吸引到他,并且让他去完成注册绑卡投资一系列的行为,实际上官网往往是这里的第一道。通过这个数据能够对应出来投资的用户和没投资用户在这个上面的偏好,可以看到未投资用户关注哪些内容,然后可以针对这些进行优化,优化之后往往能够带来转化率的提升。这是举一个小小的例子,实际上到后面注册的流程,绑卡的流程,投资的流程,每一个环节都可以应用这样的分析去根据产品本身的优化。


这是我们诸葛平台提供的各个分析的模型,实际上大家可以看到非常多,包括行为路径,包括事件的基本漏斗流程等等,实际上有非常多的路径,基本可以很方便的支撑产品团队进行产品的优化。


接下来讲的是运营触达的优化。运营触达的优化是什么意思呢?我们先从一个例子开始,比如一个互金平台,今天新来了一个用户,这个用户如果对我上面提供的理财产品是感兴趣的,并且他手里的各个条件具备,比如手里刚好有一张有钱的银行卡,他很快就完成了投资的转化。但是也有可能因为一些情况,比如他的卡刚好没在身边,或者其他的等等因素,他就没有完成这个。当然也有一些人只是上来看一看,并没有准备完成这个投资。在这当中有一些用户会达成转化,有一些要转化但是没转化,对于可能转化但是没有转化的人,如果我们能够发现出来,并且在合适的时机去给他一些内容或者优惠的推送,就很有可能提高这个转化。举个例子,用户注册成功了,但是他在24小时之内没有完成开户。我们可以通过短信或者APP等通道给他发送一条消息的话,这时候再衡量,触达他以后三天之内,他有没有完成首单的投资。这时候就很有可能极大的提高转化率。


再举一个例子,比如说是总资产总额小于5万,新手期的活跃用户,这时候我们用现金券的发放,有可能会使得这一部分户投资。这两个例子是让用户在生命周期的各个阶段提升转化,基本上都能想到一些手段去试,其中有些不会产生不错的效果。


这是诸葛智能触达的一套平台,它能完成用户,时机,渠道以及内容的选择和撰写,然后通过自动化一键衡量让运营人员实时看到效果。它的特点,可以通过可视化方式,不需要编写代码就能够完成这个活动的创建。它的执行是自动的。这个自动是根据用户的行为来触发的,是他的行为数据到了某一个合适条件会自动触达,而不需要人来做,并可以实时进行效果的衡量。


接下来分享的内容是针对在座的各位,就是数据分析师。因为前面讲的面向市场人员的,面向产品经理的,面向运营经理的,他们能够用到的一些工具,他们的基本上通过一些可视化的方式,一些简单的方式,他们能够理解,能够掌握的数据去应用数据去做各种衡量、分析以及他业务的相关优化。但是对于在座的各位来说,这些工具有没有用?实际上是有用的。但是很多时候它是不够用的。比如平台了模型再多,可能有几十个模型,按照我们分析师面临的情况和需求往往会比这些模型能够直接解决的情况往往更加复杂,所以这时候需要提供一些额外的支撑。诸葛产品也提供了三方面的支撑:第一,SQL查询,第二,数据仓库开放访问,第三,实时数据订阅。SQL查询,我们基于阿帕奇的一个Zepplin开源项目构建了这样一套SQL查询平台,它的底下是直接的把结构化的用户行为数据的数据仓库在底下,然后在这上面实现了这样一套平台,我们可以直接通过写SQL语句的方式,对这个数据进行各种分析和洞察。同时类似于里面支持的各种方式在里面也都能给予支持,这样非常适合分析师进行探索式,发现式的分析里进行使用。同时,它还支持了一些简单的数据可视化,包括柱形图这样的一些基本的途径,可以让我们很方便的去对这个数据进行一些更深入的分析,或者从一个更加形象的角度上进行理解。


第二个,数据仓库开放访问。我们始终相信用户行为的数据,它在过去因为种种原因没有被很好地搜集和利用起来。真正在服务这些企业的时候我们发现运行的数据能够发挥的价值是非常非常大的,但是在这样做的时候,我们也不想让用户行为的数据仅仅是搜集到诸葛自己的平台上来,通过这个界面给大家提供各种服务。


我们也想能不能把这些数据针对企业开放出来,当然是我们服务哪家企业对哪家开放,企业之间相互是没有交叉的。这里我们就提供了数据仓库的开放访问。如果任何一家企业它们需要的话,我们可以把我们底下,就是搜集上来的用户行为数据,底下的数据直接开放。开放后我们可以把行为数据和业务数据打通,中间通过用户ID等等的实现行为数据和业务数据的关联,关联以后业务数据往往是一些结果性数据,我们知道这个用户投资了三次,投资总额是1.5万,但是这个用户投资的整个过程是什么样的,我们需要到业务数据里去找,这中间如果发现一些不理想的,我们能从业务数据找到原因,甚至找到一些改善的手段。第二个,往往我们除了利用平台提供的报告以外,我们分析师还需要面对不同的领导,面对不同的业务部门需要提供一些个性化的报表,这时候我们可以直接通过你手里所用的报表或者可视化工具直接接上这个数据源就可以做。再进一步如果你有算法程序,你可以基于主业直接展开一些深入的分析和挖掘。


第三个,实时数据的订阅。在诸葛的平台上所有的用户的行为数据,从行为到发生,到数据入库可以做到秒级入库,到实时性达到这么高级别的时候就会衍生出来额外的应用场景,比如对互金做实时风控的时候,有时候需要把用户行为数据放到整个大的风控中。把实时的和整个的接起来的话,我们能够在比较早的时候发现一个用户是不是羊毛党等等等等的。


我们平台实际上有私有部署的形式,有SaaS模式,就是可以在我们平台上直接转化,也可以直接部署到本地的机器上用。



说一下我们平台的特点:第一,工具比较先进,它跟业务贴合的非常紧密,能够有利的支撑各个业务模块工作的优化。第二,工具比较成熟。能够支持快速便捷的应用。也就是说SaaS是开箱即用,私有部署一周实施。还有平台很开放的,无论数据还是接口都非常多。还有就是如果大家过去没有对用户行为数据进行分析和挖掘的经验的话,我们的团队可以提供相应的服务,我们可以通过培训,甚至是帮企业直接做分析,来指导我们业务的优化。


在过去两年实际上我们也服务了很多金融的客户,传统的比较少,更多的是互联网金融平台,大的像人人贷,首创金服,阳光保险等等,这些都是用我们的产品帮助他们完成线上用户行为的采集和分析。这是我们基本在各个行业的,不限于互联网行业,很多传统的行业也在应用我们的工具和平台。大家如果对用户实时数据感兴趣或者诸葛提供的平台和服务感兴趣的话可以到我们展位看一看。谢谢大家。


主持人:谢谢。下面有请集思录副总裁郑志勇老师为大家分享资产配置与数据分析。


郑志勇:大家好。我以前做数据分析的,后来以不做了。我今天跟大家讲的是资产配置与大数据。其实金融市场是一个非常好的市场,金融市场好到什么程度,是信披非常规范。相对于投资者面对相同的数据必须是不一样的,问题就是说数据一样,大家看法不一样就有分歧,有分歧就有交易。资产配置的本质是什么,就是想赚钱,怎么赚钱呢?大家都想赚钱,结果是大部分都赔钱,这是必然的。大部分人赔钱,少部分人赚钱,这是客观规律无法改变的。客观规律,对我自己来说,我投资做资产配置,什么叫资产配置,其实跟买菜一样的,就是要做比较。就是台上人讲这个人很牛,但是没有比较就不知道他有多牛。比较的话就需要经验和模型,更多的还有数据。像有多少人知道集思录?不知道也无所谓。我们有分级基金,可转债,定增基金,货币管理数据等等的。像有资金可以做证券回购,还有可能做ETF套利,还可以做银行薅羊毛。那我怎么投资?都是T+0、T+1的,那谁的高我够买谁的,这叫信息优势。但是没有人有那么多信息。我以前上学的时候总是觉得金融市场无风险利率,没个人的无风险利率是不一样的,余额宝是屌丝的无风险利率。有钱的,一百万信托是无风险利率,再有钱就是无限委托贷款是无风险利率。我们说把这些东西充分整合,这个事有什么好处,就是不要想这个东西多么复杂和这个逻辑是怎么样,直接把放进去就好了。


资产配置与大数据结合,大数据就是快速与预测。经常会看到很多人吹牛,海外电话投资那么牛,一个就是快速。在投资领域我至今没有看到哪些人用技术赚钱了,最后我发现制度套利要比技术套利靠谱。这就是现实比较残酷。我们知道AI是通过数据学习的,我发现非常好,现在有人跟我讲他那个是人工智能,我说怎么是人工智能。说这是逻辑回归,随机森林。我说这是我上学的时候叫运筹学,现在只是变了一个名字叫AI,高大上多了。像现在说的深度学习并不是这几年才有的,早就有了。AI,我们必须知道一点,就是对于个人来说,我们个人的追求是什么?赚钱呗。所以每个人要把自己当成一个企业衡量,就是你把精力放哪儿,哪儿会赚钱,今年挣一万,明年挣两万,多做这些实实在在的事。那么会想到AI是通过数据学习的,我们通过什么学习,人也是通过数据学习的。就想我要跟AI换,这就是我的想法。基金投资者是如何亏钱的?我举个例子,中国人有一个特点,不懂得事从小金额做起,隔壁王大妈他儿子2015年不懂股票,他妈给了他一万块钱。过了一个月,一万块钱变两万。然后又给了40万,一个月又赚了40万。最后给他儿子500万,最后剩了200万回来了。这就是市场,就是我们有些是跟市场相违背的。


我们都有一个问题,今天赚钱了,为什么我买的不赚钱,为啥这个基金业绩是不可持续的。基金业绩本来就是不可持续的,如果业绩可持续,投机人很简单,排着队去买就行了。本来就是不可持续性的。这就是我们数据分析的意义。数据分析有没有意义?就是我们机器学习的统计,统计学基础,就是说独立局分布,假设这个东西,在投机市场07-08年熊市和2015-2016年的熊市一样吗?不一样。投资者结构变了吗,没变。就说一个事,我们面对的任何东西,会发现欺诈和反欺诈谁更牛?当然欺诈比反欺诈牛,就是欺诈永远领先于反欺诈的。就是说我们面对的市场和可怕,它可怕到什么程度?它是净化的。它的投资者在学习,投资结构在变化,他们自身也是一个群体,一个人炒股票,大家一块学。昨天的经验对未来有用吗?我也不知道也没有用。但是有一句话,就是怎么成功的就会自然死亡。


还有一个问题,我们怎么分析?换个角度分析呗,我干过很多工作,从编程到投资,到各种放贷款,最后等我做资金池的时候,我的客户按理说搞数学的分析很牛,我都不信,我只是傍大款。所以换个角度,基金不仅只有一大堆费用,这些费用加起来就交2%,但是还有你看不到的费用。这些都要研究,其实隐性费用显著的高于显性费用的。这些数据尽管是公开的,只是没人看。


现在罗素模式的FOF比较火,我们做营销都会讲一个噱头,因为这个非常好,因为讲故事显得自己很专业。现在所有做数学分析的人都说,有没有模型。说不知道森林模型都觉得很Low。人的存储是二进度,传导是生物电传导,跟计算机没区别。我们会宣传FOF,怎么去宣传呢?首先投资人需求,是长期需求,还是短期需求,还是养老需求,各种各样的需求不一样。还有一个问题,市场会有熊市、牛市、振荡市,根据不同行情有不同的投资经理有不同的特长,像这个人会买科技股,这个人会买价值投资,不同理念。一个问题是说,FOF作用是什么?我根据不同的市场,根据投资者不同的需求,判断它的市场情况,然后帮助你选择专业的投资经理人。逻辑很好是吧,但是根本没用,就是看的再好的逻辑,逻辑很完美是没有用的,这就是罗素模式,就是这样开始的,它会讲绩效,投资人限制800人,再到500人,做的很好,但是感觉太绕,基本都是忽悠人用的,没有任何用。


我自己也做很多事情,也做投资,我觉得传统的投资太复杂了。我们就化繁为简,我自己搞了一个组合,2016年5月份,2800点建的,中国人一个很好的特点,喜欢追涨,不喜欢买跌。这些不看了,也不宣传了,可以上百度搜。


投资逻辑很简单,刚才说了简单有效。怎么简单有效?就是比较。自从我买了港股很少买A股,因为便宜。但是后来怎么样不知道。其实大家都是金融行业的,我们做数据分析是赚钱最多的吗?

嘉宾:不是。


郑志勇:显然不是。当然去赚更多的钱大家都进入金融行业。但是有一个问题,现在一个是金融行业最大的问题,是产能过剩,就是太多了,你会发现最近银行招聘,证券公司招聘越来越少,为什么少?因为金融危机的时候08年的时候,所有的实体行业都很惨,就是煤矿、采掘,造企业很惨,唯有金融行业好,为什么?国家放了4万亿。不管4万亿去哪儿了,做金融的都是雁过拔毛。还有加杠杆来回套,资金池套资金池。来回套的一个好处,就是钱没多,但是我的收入多了。为什么?我收了14倍。原来10万亿,现在收100万亿管理费,所以收入高。而且2008年-2015年是整个金融业的大年。我非常幸运赶上了。2015年之后是金融业的小年,就是开始严监管,去杠杆,很可怕。在金融行业,我现在不做了,我现在改做卖广告了,我发现卖广告比做金融还赚钱。所以我觉得现在来讲还是做复合型人才。


来源:CDA数据分析师峰会:大数据与金融分会场

「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-5914576-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。