请选择 进入手机版 | 继续访问电脑版
楼主: admin_kefu
3897 3

[经济类] 2017年中国数据分析师行业峰会:大数据与金融_分会场(五) [推广有奖]

客服管理员

泰斗

67%

还不是VIP/贵宾

-

TA的文库  其他...

管理文库

威望
3
论坛币
29532963 个
通用积分
12948.0535
学术水平
545 点
热心指数
667 点
信用等级
527 点
经验
294319 点
帖子
10823
精华
13
在线时间
33014 小时
注册时间
2010-6-2
最后登录
2024-5-26

初级信用勋章 中级信用勋章 初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章

admin_kefu 在职认证  发表于 2017-8-11 14:43:00 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

2017年中国数据分析师行业峰会:大数据与金融_分会场(五)

主题:大数据与金融

时间:2017年07月29日下午

地点:中国大饭店


主持人:欢迎大家来到大数据与金融的分论坛。今天分享的嘉宾老师是:

IBM Analytics LBS首席数据科学家李峰

诸葛IO产品VP于晓松老师

集思录副总裁郑志勇老师

R的极客理想作者系列图书作者张丹老师

天云大数据CEO雷涛老师

北京赛智时代信息技术咨询有限公司CEO赵刚老师

首先有请李峰老师跟大家做分享。


0LFO]AKN)}`GG$AYNUG1LR2.png


   李峰:大家下午好。我叫李峰,来自IBM实验室服务部。很高兴有机会跟大家的分享一下IBM过去在银行,尤其是在银行审计部门所做的一些研究的工作。我们在讲今天下午主体意是大概分这几个部分:第一,简单介绍一下什么是审计。审计面临着的一些业务问题,IBM在给出商业银行整个大数据分析审计平台的方案,介绍一下里面涉及到的相关核心技术和方法论。后面再讲两个比较有意思的基于模型的案例,还介绍一下审计里面的业务场景,以及通过做这个平台案例的清单,最后是一个简单的总结。


   审计其实是银行整个控制风险三大防线里的最后一道防线。我列了几个实际的案例,现在在国内出现了非常多跟银行风险相关的事情,比如飞单,今年上半年民生银行出现的16个亿飞单的场景,还有反洗钱和反恐融资等一系列的事情。随着这样一系列事情的发生使得银行的审计变得越来越重要。可以看一下银行审计在银行里处于什么样的地位?可以看到这是一个简单的事例,是说一个商业银行有股东,有董事会,审计部实际是凌驾于业务部门一个非常重要的地位。我们做审计的过程中其实非常多的步骤,包括从审计项目的开始,做各种各样的分析,审计项目的评估,最后项目后续跟进一系列的过程。在这里传统的我们在做审计的过程中,其实大部分都是人去现场,我们叫非现场审计。很多一部分的人,比如说在一些商业银行,它们的审计部门的人在过去做审计的过程中都会有一半的时间是在出差的。我们在跟几家商业银行合作做审计分析项目的时候,它们很大的一部分时间都是在各个分行或者是说各个地方去做各种各样审计的工作。这样的话使得,我们是说在审计过程中面临的非常大的一个问题,就是我们讲到的这几大问题:第一,我如何在我的审计部门人力资源有限的前提下如何保证我的审计目标,能够精准的达到审计要求。在这里面临着一个非常大的问题是说我尽可能的做非现场审计。做非现场审计的时候如何拿到数据,如何精准的找到审计的目标,如何发现现在业务过程中一些正常状态的一些异常的情况。比如说信用卡,大家都正常的刷卡,我如何发现信用卡套现的一些行为,我如何发现大家在理财交易过程中一些非法或者异常的行为,我如何发现业务人员通过控制着一些帐户去做一些非法的交易。我们在保证审计模型的持续有效,因为基于规则或者经验的审计方法和模型,其实是让别人知道的,很容易能够避免这样的一些事情发生,比如说一个最简单的方法,过往在发现网络赌博的时候,发现每次赌博的钱金额可能是一百或者一千或者两百这种整数倍,这样开网络赌博的公司为了避免银行去监管,去发现这样的赌博行为,把钱从一百变成99.9,或者101,把这种非整数的策略的变化,如果采用基于规则方法去做的话,其实很难发现,这样的很容易避免掉。所以我们讲审计的时候道高一尺,魔高一丈。我如何能够在满足我的审计目标的前提下我又能够适应现在的变化。所谓的变化就是刚才讲到的,就是从100变成99或者变成101这样的一些变化,还有业务的一些变化,像过去取10块钱或者20块钱,大家的消费是这样的水平。但是到今天这样一个发展的时代, 我们去超市,可能是100、200甚至1000,这样从20到100、1000的变化,这个变化如何在模型反映,来保证模型持续有效迭代更新的过程?所以这是我们面临的第二个问题。


   在审计中还面临着一个问题,因为银行在做审计的时候有一个保密性,就是不同的部门的人参与业务是需要看到一些相关的数据的,比如说银行内部很多员工的私密的数据,还有很多帐号相关的信息,它要如何来保证参与这个审计项目的时候能够有效看到有用的数据。结束了这个审计项目之后这些数据我再也看不到了。所以它是希望能够保证数据的有效性,就是要一个数据实效。


   还有一个问题,在不同的部门,不同的机构,尤其像工行这样大的机构在每家分行里都有自己的非常资深的一些审计专家,这些审计专家的经验和策略,还有他们构建的审计的模型,如何能分享、共享到全行来?我们说希望通过一个平台或者方法能够现实现。


   为了解决上面的这一系列的问题,我们说希望能够通过基于数据驱动的数据挖掘模型和大数据的分析的平台来解决上面的一些问题,我们叫商业银行审计大数据分析在线自助分析平台。在这个平台后面我们会介绍很多平台里可能会涉及到的一些点的功能。这是我给出来的审计分析平台的样例,大家可以参考一下。在最底层是大数据分析平台,就是数据这一层,可以是关系型数据库,可以是MySQL或者芒果DB,在这个平台上我们需要构建更新一系列的工具,就是基于这些工具构建我们算法、模型和应用。在这里我们列了一下,像可视化的方法,我们分析的工具像SPS等等一系列的算法,支撑的分析工具都可以支撑它。在这个基础之上涉及到非常多的算法和模型,比如分类的,聚类的,时间聚类分析等等一系列算法和模型。基于这些模型基础之上,我们会构建一些一系列的业务场景,这样的业务场景其实是我们在说我的审计的目标,比如说刚才讲到了我们的信用卡套现,我们的网络赌博,反洗钱,反欺诈,一系列的相关的模型,在这里我大概里了一下我们能设计的一系列项目,比如我们保证数据的安全,有一些审计权限等相关的事情,比如保证模型的更新迭代,共享这样的一些事情,做模型的定制,模型的审核、发布、优化、更新迭代一系列的过程。为了保证这些一系列过程是能够顺利的执行下去的,其实我们有相关的支撑系统支持它,比如我们有通知子系统,告诉你数据做好了,可以在哪儿看到结果。比如作业调度系统,去做优先级优化的配置。举个例子,在银行每个月都要做相关的审计工作,发现这个月这家工行里套现的银行卡是什么水平,参与网络赌博的人员是什么样的,反欺诈的一些行为,贷款的风险一系列的事情,像这种规则性的、周期性的调度的模型的方法,我们系统可以支撑它做这样周期性的。模型的训练和优化就很难,我新的模型,不够理想怎么来触发,实际上这些事情都需要作业系统来调度支撑它的。在此基础上我们会支撑,根据他的一而业务场景,然后根据他的一些应用的人员,比如系统开发部门的人,业务人员,数据管理部门,每个人有相关的应用和相对应的API工作来支撑它。


   这里重点介绍一下在我们整个分析平台里一个非常核心和关键的一个点,就是整个模型的全生命周期管理。我们讲模型前生命周期管理有几个概念是要说的。第一个,模型的自动更新迭代的过程,还有就是我的模型怎么上线到我的平台里来,能够保证模型的结果和应用和业务去做对接等等一系列的事情。刚才介绍的平台里我们把一些输入和输出的都做了一些分装,做了一些模块化的东西。比如原始数据从Oracle或者DB2或者芒果数据里的数据,我如何变成我的模型特征?在这一系列的过程里我们会把它作为一些数据加工和服务的分装,像通过ETL的一些能够把原始数据加工成我要的集成数据。这是前端数据的过程。


   在后端模型做好了的一些结果,然后这个结果如何和现有的业务系统,比如客户关系管理系统,报表的系统,风险分析的相关系统去做对接。在这里我们是说我们通过模型的定期的运行,我们会把结果写成像报表的形式存在一个数据库里,同时基于这个数据库的表格会提供一些可视化相关的服务。通过API的形式可以提供给跟业务部门去做对接的形式。


   刚才讲到还有一个很重要的概念,是说我的业务,其他地方的非常资深的专家,他所构建的业务经验如何去共享、分享?这里我说了模型审核发布和共享的过程,就是我定义好我模型的规范,输入是什么,输出是什么,我API的构建。定义好之后我通过验证,通过数据链把离线的模型都构建好。构建模型的整个过程是数据分析师或者数据科学家干的事。在建模的过程,我们所有的模型其实是为业务部门去主导的。我的模型的结果是不是能够满足我的业务目标,能够达到我的业务要求,其实是一个很重要的。所以我们有审计审核的过程。只有保证了模型业务目标的前提,模型才会共享到这个平台里来。这就是整个平台核心的关键的一些点。


   基于这样的一些分析的时候,其实这个平台里涉及到的相关技术和方法,大家都讲数据挖掘也好,讲数据分析也好,讲人工智能,机器学习也好,其实里面涉及到非常多的技术和方法,所以我今天也有点卖关子的意思,就是我们这个平台包含了哪些相关的技术和方法。首先,里面很重要的数据管理集成和分析。这里非常重要的两个点,是说我要知道我的内部数据和外部数据如何进到我的平台里来,如何保证数据质量。这里有一个概念,叫数据治理。数据治理主要的核心的一个目标,是说我要保证我的高质量数据能够被我的业务系统去支持,去利用,去服务。里面一个非常重要和核心的,非常有挑战的问题,就是现在的外部数据越来越多,各种各样的数据集成是一个非常难的一个问题,比如说我叫李峰,叫李峰的人非常多,那怎么拿到这么多量的数据里,这个李峰的各种相关的数据,比如他的消费数据,他的社交数据,他的媒体数据,都是我本人的。所以需要做数据的管理和治理相关的事。所以这里我们大概列了一下,就是银行里的传统的数据和银行里所涉及到的新型的数据,还有我们讲到的一些外部数据。在做审计部门的时候其实外部数据是非常非常重要的一些方面,我们需要做我们审计过程的补充。比如说个人和企业的征信数据,个人、企业涉及到的经济纠纷相关的数据,还有互联网相关的等等一些社交媒体的数据,甚至可能跟经济公开的一些数据等等都可能会用到,比如牵扯到宏观经济形势,比如说我们在做审计,尤其做贷款风险分析的时候会发现行业或者某个地域,今天上午的时候吴海山跟我们介绍了一下鄂尔多斯的房地产的情况,其实那样的一些地域的风险的影响因素,一些点对我们在做银行贷款风险的时候一定是非常有用的。所以这是整个数据的情况,我们在这个平台里我要保证我的数据质量,我高质量的数据进到我的平台模型中来。


   基于这样的一个平台的时候,里面我们就可以涉及到非常多的算法和模型,这是我们初步进到数据分析师和数据科学家这个团队中来的时候,大家想有这么多算法,有这么多的模型,有这么多技术我怎么开头做这件事?比如跟统计学相关的,我们有时间序列分析,回归分析等等。跟数据挖掘相关的聚类、分类各种各样的算法。这么多的东西我们都可以为我所用。而且现在像现在很多工具,这里所说的算法和模型都是一两句代码就能搞定事,所以为我们提供了非常好的开源的工具为我所用来做这样的事情。


   刚才讲到了跟机器学习,其实还有一个很重要的因素,就是我们讲的代表图。这是我举的一个社交分析网络模型,可以看到在银行里能涉及到的网络包括什么,贷款的网络,交易的网络,集资的网络,等等一系列的事,我这里举了两个例子:一个是做担保和互担保的,其实这两个一直是银行在贷款风险里非常关注的点。但是在银行做担保和互担保关系的时候有一个非常难的问题,就是银行只有自己的数据,它没有其他行的,我不知道我的企业在其他行是什么样的情况。所以我们会需要借助一些外部的数据,比如说银行征信的数据,比如说第三方的各种新闻相关的数据,比如说企业上下游一些关系的数据,来构建我整个的贷款的一些网络,来发现我的贷款风险。我的右边一个非法集资的帐户,大家可以看到这里我列了一些点,标红是我们发现在做非法集资的一些资金的掮客,或者说最后资金的着落点。在那里大家可以看到从社交网络分析的角度看,这就是一个聚集点,或者是说资金的转入、转出点,但是我们怎么判断这是一个非法集资的帐户,他是一个资金掮客,其实这上面有非常多的特征。我给大家举几个例子,第一,做资金掮客,他的资金沉淀在他的帐户里基本上不会超过三天的。第二,他的资金转入和转出的量基本上是平衡的1比1的状态。第三,资金转入帐户会比较分散,但是资金转出的帐户会比较集中。等等一系列的特征是能够帮助我们更好的来辨认整个非法集资里资金掮客也好,或者说是真的做非法集资的帐户。但是这里一个非常大的问题,就是我们讲基于传统的关系型数据库或者关系型图的时候是有局限的,所以我们有了一个新的技术,叫图计算或者数据库这样的方法,这样可以帮助我们处理一级的节点。右边我们做了一个介绍,基于图数据库的方法,我们构建这个平台的时候是把这些开源的基于图,数据库和图计算相关的算法和技术涵盖在这里。


   最后,是讲可视化。大家在讲数据挖掘也好,讲分析也好,讲数据科学也好,其实可视化是一个非常重要的一部分。有很多的问题可能通过一些可视化的手段或多或少就可以找到一些洞察。基于这个洞察可能就会构建一系列的相关的特征。基于这个特征可以更好的提升我模型的精确度。这是我们在建模之前。建模之后通过可视化能够更好的帮助业务人员,帮助管理人员去指导他提供一系列的相关策略、决策、支持的一些事。我们把可视化分成了三个递进的层面,最简单的就是报表的整治,像柱状图,饼图,还会有一些钻取,基于时间的,地点的,跨度的等等一系列方法。最后是基于数据挖掘和分析的策略,然后提供一些更深层的可视化的方法,然后去给我们提供更好的决策和支持。


7ZOOUVXL2DDLSSUDAC0CWT9.png


   这是刚才讲到平台里涉及到的相关的技术和方法。这块如果是做数据分析师或者数据科学家应该对这个方法论非常的熟,我就说一点。在这个方法论里分成了六个步骤:商业理解,数据理解,数据准备,建模,评估和部署。这个过程其实是螺旋上升的过程或者是递进迭代的过程。在这个过程里不管是做数据科学家的职位也好,或者是说做业务职位也好,或者是只懂数据只从数据角度出发做这个事,其实都是可以的。


   下面我会用两个例子简单介绍一下我们在整个审计分析平台里我们可能涉及到的跟大家说到的一些业务场景。第一个,我们把它叫信用卡套现。大家可以看到信用卡套现其实我的输入数据是这三类:第一类,个人相关的信息。第二,信用卡的消费记录信息。还有一类是根据消费对象的商户信息。为什么把这个信息放进来呢?大家肯定知道我们做信用卡刷卡的时候,银联是要收费的,而且不同的商户的收费是不一样的。比如像餐饮,像酒店的费率相对来说比较高的,但是对某些行业相对来说比较低。我们去做信用卡套现的时候,我肯定是要用非常少的成本去做这种套现的一些行为。我这三类数据我怎么来发现我的信用卡是套现行为?大家想一想大家做信用卡套现的目的,他套现的主张是什么?比如最简单,我会尽可能利用我信用授信额度,比如我是10万授信额度,我可能每个月用到九万九。第二,我尽可能的利用我的免息期,比如30天、50天这样的免息期。第三个,我会尽可能在我套现成本比较低的商户里做这样的事。如果说我做套现我可能只做一次,在做一次的时候可能发现不了,但是要做多次,比如说上个月做了,下个月做了,这个月也做了,会有多次频繁的行为在。所以我们讲审计核心的话其实是找到正常交易里的一些异常的交易。所以做套现行为的时候也是一样,因为大家做信用卡消费的时候,是尽可能避免正常,可以看到正常人消费基本上是从1号到31号基本上是一个平均的消费行为,但是对套现行为的话他可能就集中在比较靠前的。所以基于这样的一些方法和模型我们构建出来,然后在几家行我们做了非常好的验证,而且基于我们这样的方法可以节省它大概90%的人力成本。就是基于之前的话他基本做一个月的,好几个人去现场做,现在基于我们的模型和方法基本上只要去做验证就可以。


   刚才讲到了关于关系网络的挖掘和分析。在构建的时候可能希望应用到各种各样的方法,包括文本分析的技术,把这个图构建出来,这是它的核心。构建网络之后,后面我们会发现它们一些相关的关系图,这里是分析的结果,这家行里面,我们会发现它有一些互担保,联保或者链保这样的关系,我们可以看到在它的22万帐户里发现了有9千多帐户之间是存在互担保的关系。对它来讲会出现风险。其实在互担保的关系里如果其中的一家企业或者多家企业出现了风险,整个担保的风险就会非常的高。这就使我们避免了风险。


   刚才讲到了这个平台,我们过往我们做过的实际的案例。基于这样的平台加模型的方法,帮助到很多行做了非常好的工作。这里我列的是审计,其实还有一些跟精准营销,跟其他业务相关的事。


   总结:我们讲到了利用大数据分析方法,基于数据驱动的技术,我们希望能够借助平台和模型两方面的发力,能够帮助到银行去构建它的整个的分析的能力,然后去提升它的银行业务水平。这里我列了一些好处:我们这个平台还有一个好处,今天上午有一个叫PASO,大家上午听到也会看到,其实我们提供端到端,从数据到结果一整套的方案来解决这样的问题。好,我的介绍就到这里。谢谢。


   提问:我想问一下关于银行信用风险贷款部分,在行业当中建模的时候,除了WOE,还有计算它的IV值在代入模型当中,还有什么方法可以提高它的预测的准确度吗?


   李峰:这是一个非常好的问题。因为我们在做信用评级或者风险的时候,比如说银行其实基于之前的一些方法和技术,刚才讲的,它是随着P2P公司的发展,一些新的数据进来,新的信用评级的策略会把它加进来。比如说我们会把他手机的还款消费的信息,信用卡还款消费信息,他的可能涉及到的风险相关的,比如贷款风险,还有跟他个人信用征信相关的一些信息综合起来,然后会给他提升他整个信用评级的标准。其实这是单纯的从银行自己本身,还有一部分刚才讲到了,是说我不单纯的拿到我本行的数据,如果能够拿到外行的一些数据,如果能够拿到银行征信或者银联相关的数据,然后再加上外部的一些数据,综合起来一定是能够来提升信用评级的。其实这块我建议你可以看一下现在P2P公司,或者说互联网金融公司在做的信用评级,你申请贷款的时候他会考虑你这些相关的因素,比如说你的住房,你的车,还有你平时的消费,等等一系列的行为,都是可以来反映你的信用评级的。


   提问:逻辑回归、随机森林这些算法来讲,在实际中会有哪些比较有实际的用途呢?


   李峰:这是一个好问题。因为你刚才讲的这三个基本上都是分类的问题,都是分类的算法,其实我们在讲逻辑回归,随机森林的时候,我们在解决分类的问题,在银行有非常多的分类问题,比如信用卡套现,信用卡逾期风险,去获客,很多问题都是分类问题。只要是分类的问题都可以用你讲到的这些算法去解决。


   提问:可是有些问题,我们怎么解释呢?


   李峰:至于模型可解释性来讲的话,每个人对整个可解释性理解是不一样的。对业务人员来讲肯定是希望他用业务的逻辑,业务的语言去描述它,我能够理解它,所以希望模型是有可解释性的。比如我们在讲决策数,我们在讲随机森林,我们在讲逻辑回归等等,可能都会涉及到某些变量,就是它的重要性。这些变量的重要性是能够反映我在构建模型的时候我知道哪些特征是非常重要的,我能够更好的反映我的业务。这是从模型可解释性方面业务人员所需要的。还有一方面类似于极客,我就要把我模型的精确度,召回率做的最好,至于模型的可解释性就不需要。这是两个策略和思路。从银行策略专家角度来看,他是希望把这个可解释性和业务去做一个对接,这样才能够更好的反映他的业务场景。所以我们做数据挖掘建模一个很关键的思路是什么,我们要找到我反映这个问题的物理本质。它的物理本质其实就是你所说的业务可解释性的另外的一个层面的解释。所以我们构建数据挖掘模型它的本质思想就是找到反映这个问题本质的物理含义是什么。

提问:评价这个模型到底是不是适合它呢?


   李峰:这就是你的业务目标来驱动决定的。比如你要解决你的获客,或者你要解决你的风险,只要能达到你的业务目标,这个其实就够了。


   主持人:谢谢。下面有请诸葛IO于晓松老师跟大家分享深入金融场景的数据驱动与应用。


   于晓松:大家下午好。很高兴有这样的一个机会,能跟大家一起分享一下数据驱动在金融领域的应用。金融是一个非常专业也非常庞大的一个领域,这里边数据可以发挥的作用,可以创造的价值是非常非常多的。我是来自一家提供数据服务的公司,叫诸葛,有一款产品叫诸葛IO。简单说一下我们做什么事?我们是服务于企业,帮助企业利用数据来驱动业务优化这样一家公司。再具体,我们做的是比较窄的一个地方,就是数据很多,能够优化业务的数据也非常多,我们主要专注在线上的用户行为的数据。基于这个我们做了两方面的工作:第一,底下大家能看到的,我们有一套平台,它能够帮助企业非常简单、非常便捷的去把线上用户的行为采集起来,我们通过SDK等等去做数据的采集。然后整个数据的处理转化的工作也是可以直接做,做了以后进入数据仓库。这是底下的这部分,就是对数据这块,实际上我们可以帮助好多企业省去大量的工作和研发工作,包括一些数据清理的工作,直接把一些结构化的,非常标准化的数据给采集上来。以这些数据为基础,我们会针对企业的各项业务提供相关的衡量、分析和优化的支持。具体比如说面向市场,面向运营的,包括面向产品类的工作。


   回归到金融,在我们诸葛经验里我们为互联网金融公司提供的服务多一些,所以我今天举的场景是和互联网金融有关的。因为在座的有好多人对互金的业务不是特别了解,我这里简单介绍一下。互联网金融业务也分好多种,我举例的是做投资理财的企业的产品的用户。对于一个在线上通过APP或者网站来向C端用户销售各类理财产品,帮助用户完成基于互联网完成投资的一项业务,用户大致体验流程是这样的,首先企业会在各个渠道做投放,比如通过百度关键词或者今日头条等等可以投放的渠道来进行投放。投放以后这个时候有感兴趣的潜在投资者他们会被吸引过来,吸引过来就会点击这个广告然后进入这个站点。然后按照引导一步一步完成他的注册,银行卡的绑定,以及他的投资行为的发生。这里边是一个简化以后列出的图是这样的。如果把这个再丰富一下的话,他大致的过程是从上到下的这样一个过程,就是上面有各种投放,投放以后进到你产品的线上的应用或者APP之后,会通过各种分类导航,搜索等等去选择他感兴趣的这里面的产品,然后可能会注册,实名绑卡,需要充一些钱,像第一次投资需要一千块,可能会充一千块。充万以后就开始进行投资,去买一个具体的产品,比如根据他的偏好,他可能觉得稳一些的,选择一个基金型的,像期限三个月的。买完以后,到期他会赎回,然后体现。这中间也有一些人可能会继续投资。当然中间也有一些特别的人,就是跟前面李老师讲的有关的,就是有些人实际上会利用这些互金平台它业务上的特点来赚取一些过高的收益。因为一般的互联网金融平台它们对新手都会提供一些补贴或者优惠,比如说会有一些产品,它的收益率比其他的高很多,它的时间可能会比较短,让用户能够快速的体验到基于互联网投资的便利性。这个时候催生了,专门有一些人,就是所谓的羊毛党。这里大致是这样的一个业务模型。基于这样用户的流向,企业涉及到营销推广上的,就是运营活动的组织,理财产品的上架,包括整个平台的产品设计,等等这样的工作时间都是在典型的互联网金融企业在做的。


   这里我会针对几个具体的场景讲一讲数据在中间能发挥什么样的作用。从获客开始,每个互联网金融的平台它们都会投入很多的人力和财力去获取新用户。因为一家成功的或者说比较大的互联网金融平台,它必须有一个相当大的用户基础,所以拉新是他们的一个非常重要的工作。拉新的方式有很多种,可能会通过广告的投放,然后通过组织一些线上活动,通过一些自媒体,一些有趣的内容和活动的传播等等,方式非常非常多。基本上每一种手段,每一个渠道基本上都是要投入一些成本的。这些投入的成本最后效果到底什么样实际上是可以去做的。传统的方式是什么呢,像打广告,这可以拿到几个数据,第一,会在不的渠道打广告的时候会知道这个广告曝光了多少次,点击了多少次,这个数据基本分媒体,甚至细到分广告位能拿到的,投了一百个广告位,能精确的知道这一百个广告位有多少曝光和点击。但是往后往往是互金平台在业务系统里记录下来用户的注册,绑卡,交易等等一些核心的业务数据。但是这些数据跟前面的投放没有关联的。所以这中间能做的第一件事,把这个拆细。像今天有一万个人注册,这一万个人其中有三千人绑卡,三千人里又有两千人在注册当天完成了第一笔投资。如果我们能够把这个数据拆开看的话,我们能够清晰知道这一万人里可能来自搜索引擎的是多少,来自今日头条的是多少,来自朋友圈广告的是多少,这三个分别带来了多少用户,带来的用户又有多少完成了绑卡,多少人完成了第一次投资交易。如果按照这个渠道打通的话,实际上我们能够很轻松的衡量出每一个来源渠道的投入产出比是什么样的。拿到这些数据我们渠道人员在有限的市场投放用到更加有效的渠道上。这个主要的方式是两个:第一个,从流量到曝光,到点击,到注册,到绑卡,这一系列用户的行为在单个用户上。假如今天有一个投资用户,我能从前一直追溯到他什么时间注册的,从哪个渠道来的,什么时间来的,基于这个一张简单的表就能够帮助市场人员完成衡量和优化。


   第二个,转化。我们做投放的目的是吸引更多的人来到互金平台。来了以后我们接下来要做的就是让这些人能够尽可能快,尽可能多的转化成我们投资的用户。当然如果是其他类型的互金业务,比如说是网贷的,我们可能希望更多的人转化成贷款的用户,当然前提条件是他有还款能力,还款的可能性比较高。所以还款这块核心业务如何提高流量用户达成交易的转化率。对于这样的问题,当把用户行为数据引进来之后我们得到了两个有效的手段:第一,对互金平台的产品功能进行优化。第二,针对用户进行精准的有目的性的触达。功能优化进行转化,我举个例子,比如这样一个互金平台的官网首页,当我们把用在这个官网首页每一个用户的每一个行为都记录下来以后,数据叠加到这里可以得到这样的效果,这里把人分成两类,一个是已经投资的用户,一个是没有投资的用户。对于这样一个平台官网首页实际上承担的功能比较多的,承担的职责比较多,其中一个重要的就是让未投资的用户尽快的转化成投资的用户。就是在首页上呈现的内容能不能在第一时间吸引到他,并且让他去完成注册绑卡投资一系列的行为,实际上官网往往是这里的第一道。通过这个数据能够对应出来投资的用户和没投资用户在这个上面的偏好,可以看到未投资用户关注哪些内容,然后可以针对这些进行优化,优化之后往往能够带来转化率的提升。这是举一个小小的例子,实际上到后面注册的流程,绑卡的流程,投资的流程,每一个环节都可以应用这样的分析去根据产品本身的优化。


   这是我们诸葛平台提供的各个分析的模型,实际上大家可以看到非常多,包括行为路径,包括事件的基本漏斗流程等等,实际上有非常多的路径,基本可以很方便的支撑产品团队进行产品的优化。


   接下来讲的是运营触达的优化。运营触达的优化是什么意思呢?我们先从一个例子开始,比如一个互金平台,今天新来了一个用户,这个用户如果对我上面提供的理财产品是感兴趣的,并且他手里的各个条件具备,比如手里刚好有一张有钱的银行卡,他很快就完成了投资的转化。但是也有可能因为一些情况,比如他的卡刚好没在身边,或者其他的等等因素,他就没有完成这个。当然也有一些人只是上来看一看,并没有准备完成这个投资。在这当中有一些用户会达成转化,有一些要转化但是没转化,对于可能转化但是没有转化的人,如果我们能够发现出来,并且在合适的时机去给他一些内容或者优惠的推送,就很有可能提高这个转化。举个例子,用户注册成功了,但是他在24小时之内没有完成开户。我们可以通过短信或者APP等通道给他发送一条消息的话,这时候再衡量,触达他以后三天之内,他有没有完成首单的投资。这时候就很有可能极大的提高转化率。


   再举一个例子,比如说是总资产总额小于5万,新手期的活跃用户,这时候我们用现金券的发放,有可能会使得这一部分户投资。这两个例子是让用户在生命周期的各个阶段提升转化,基本上都能想到一些手段去试,其中有些不会产生不错的效果。


   这是诸葛智能触达的一套平台,它能完成用户,时机,渠道以及内容的选择和撰写,然后通过自动化一键衡量让运营人员实时看到效果。它的特点,可以通过可视化方式,不需要编写代码就能够完成这个活动的创建。它的执行是自动的。这个自动是根据用户的行为来触发的,是他的行为数据到了某一个合适条件会自动触达,而不需要人来做,并可以实时进行效果的衡量。


   接下来分享的内容是针对在座的各位,就是数据分析师。因为前面讲的面向市场人员的,面向产品经理的,面向运营经理的,他们能够用到的一些工具,他们的基本上通过一些可视化的方式,一些简单的方式,他们能够理解,能够掌握的数据去应用数据去做各种衡量、分析以及他业务的相关优化。但是对于在座的各位来说,这些工具有没有用?实际上是有用的。但是很多时候它是不够用的。比如平台了模型再多,可能有几十个模型,按照我们分析师面临的情况和需求往往会比这些模型能够直接解决的情况往往更加复杂,所以这时候需要提供一些额外的支撑。诸葛产品也提供了三方面的支撑:第一,SQL查询,第二,数据仓库开放访问,第三,实时数据订阅。SQL查询,我们基于阿帕奇的一个Zepplin开源项目构建了这样一套SQL查询平台,它的底下是直接的把结构化的用户行为数据的数据仓库在底下,然后在这上面实现了这样一套平台,我们可以直接通过写SQL语句的方式,对这个数据进行各种分析和洞察。同时类似于里面支持的各种方式在里面也都能给予支持,这样非常适合分析师进行探索式,发现式的分析里进行使用。同时,它还支持了一些简单的数据可视化,包括柱形图这样的一些基本的途径,可以让我们很方便的去对这个数据进行一些更深入的分析,或者从一个更加形象的角度上进行理解。


   第二个,数据仓库开放访问。我们始终相信用户行为的数据,它在过去因为种种原因没有被很好地搜集和利用起来。真正在服务这些企业的时候我们发现运行的数据能够发挥的价值是非常非常大的,但是在这样做的时候,我们也不想让用户行为的数据仅仅是搜集到诸葛自己的平台上来,通过这个界面给大家提供各种服务。


   我们也想能不能把这些数据针对企业开放出来,当然是我们服务哪家企业对哪家开放,企业之间相互是没有交叉的。这里我们就提供了数据仓库的开放访问。如果任何一家企业它们需要的话,我们可以把我们底下,就是搜集上来的用户行为数据,底下的数据直接开放。开放后我们可以把行为数据和业务数据打通,中间通过用户ID等等的实现行为数据和业务数据的关联,关联以后业务数据往往是一些结果性数据,我们知道这个用户投资了三次,投资总额是1.5万,但是这个用户投资的整个过程是什么样的,我们需要到业务数据里去找,这中间如果发现一些不理想的,我们能从业务数据找到原因,甚至找到一些改善的手段。第二个,往往我们除了利用平台提供的报告以外,我们分析师还需要面对不同的领导,面对不同的业务部门需要提供一些个性化的报表,这时候我们可以直接通过你手里所用的报表或者可视化工具直接接上这个数据源就可以做。再进一步如果你有算法程序,你可以基于主业直接展开一些深入的分析和挖掘。


   第三个,实时数据的订阅。在诸葛的平台上所有的用户的行为数据,从行为到发生,到数据入库可以做到秒级入库,到实时性达到这么高级别的时候就会衍生出来额外的应用场景,比如对互金做实时风控的时候,有时候需要把用户行为数据放到整个大的风控中。把实时的和整个的接起来的话,我们能够在比较早的时候发现一个用户是不是羊毛党等等等等的。


   我们平台实际上有私有部署的形式,有SaaS模式,就是可以在我们平台上直接转化,也可以直接部署到本地的机器上用。


G$NZUYJY`ELT}0Y(_}WZB55.png


   说一下我们平台的特点:第一,工具比较先进,它跟业务贴合的非常紧密,能够有利的支撑各个业务模块工作的优化。第二,工具比较成熟。能够支持快速便捷的应用。也就是说SaaS是开箱即用,私有部署一周实施。还有平台很开放的,无论数据还是接口都非常多。还有就是如果大家过去没有对用户行为数据进行分析和挖掘的经验的话,我们的团队可以提供相应的服务,我们可以通过培训,甚至是帮企业直接做分析,来指导我们业务的优化。


   在过去两年实际上我们也服务了很多金融的客户,传统的比较少,更多的是互联网金融平台,大的像人人贷,首创金服,阳光保险等等,这些都是用我们的产品帮助他们完成线上用户行为的采集和分析。这是我们基本在各个行业的,不限于互联网行业,很多传统的行业也在应用我们的工具和平台。大家如果对用户实时数据感兴趣或者诸葛提供的平台和服务感兴趣的话可以到我们展位看一看。谢谢大家。


   主持人:谢谢。下面有请集思录副总裁郑志勇老师为大家分享资产配置与数据分析。


   郑志勇:大家好。我以前做数据分析的,后来以不做了。我今天跟大家讲的是资产配置与大数据。其实金融市场是一个非常好的市场,金融市场好到什么程度,是信披非常规范。相对于投资者面对相同的数据必须是不一样的,问题就是说数据一样,大家看法不一样就有分歧,有分歧就有交易。资产配置的本质是什么,就是想赚钱,怎么赚钱呢?大家都想赚钱,结果是大部分都赔钱,这是必然的。大部分人赔钱,少部分人赚钱,这是客观规律无法改变的。客观规律,对我自己来说,我投资做资产配置,什么叫资产配置,其实跟买菜一样的,就是要做比较。就是台上人讲这个人很牛,但是没有比较就不知道他有多牛。比较的话就需要经验和模型,更多的还有数据。像有多少人知道集思录?不知道也无所谓。我们有分级基金,可转债,定增基金,货币管理数据等等的。像有资金可以做证券回购,还有可能做ETF套利,还可以做银行薅羊毛。那我怎么投资?都是T+0、T+1的,那谁的高我够买谁的,这叫信息优势。但是没有人有那么多信息。我以前上学的时候总是觉得金融市场无风险利率,没个人的无风险利率是不一样的,余额宝是屌丝的无风险利率。有钱的,一百万信托是无风险利率,再有钱就是无限委托贷款是无风险利率。我们说把这些东西充分整合,这个事有什么好处,就是不要想这个东西多么复杂和这个逻辑是怎么样,直接把放进去就好了。


   资产配置与大数据结合,大数据就是快速与预测。经常会看到很多人吹牛,海外电话投资那么牛,一个就是快速。在投资领域我至今没有看到哪些人用技术赚钱了,最后我发现制度套利要比技术套利靠谱。这就是现实比较残酷。我们知道AI是通过数据学习的,我发现非常好,现在有人跟我讲他那个是人工智能,我说怎么是人工智能。说这是逻辑回归,随机森林。我说这是我上学的时候叫运筹学,现在只是变了一个名字叫AI,高大上多了。像现在说的深度学习并不是这几年才有的,早就有了。AI,我们必须知道一点,就是对于个人来说,我们个人的追求是什么?赚钱呗。所以每个人要把自己当成一个企业衡量,就是你把精力放哪儿,哪儿会赚钱,今年挣一万,明年挣两万,多做这些实实在在的事。那么会想到AI是通过数据学习的,我们通过什么学习,人也是通过数据学习的。就想我要跟AI换,这就是我的想法。基金投资者是如何亏钱的?我举个例子,中国人有一个特点,不懂得事从小金额做起,隔壁王大妈他儿子2015年不懂股票,他妈给了他一万块钱。过了一个月,一万块钱变两万。然后又给了40万,一个月又赚了40万。最后给他儿子500万,最后剩了200万回来了。这就是市场,就是我们有些是跟市场相违背的。


   我们都有一个问题,今天赚钱了,为什么我买的不赚钱,为啥这个基金业绩是不可持续的。基金业绩本来就是不可持续的,如果业绩可持续,投机人很简单,排着队去买就行了。本来就是不可持续性的。这就是我们数据分析的意义。数据分析有没有意义?就是我们机器学习的统计,统计学基础,就是说独立局分布,假设这个东西,在投机市场07-08年熊市和2015-2016年的熊市一样吗?不一样。投资者结构变了吗,没变。就说一个事,我们面对的任何东西,会发现欺诈和反欺诈谁更牛?当然欺诈比反欺诈牛,就是欺诈永远领先于反欺诈的。就是说我们面对的市场和可怕,它可怕到什么程度?它是净化的。它的投资者在学习,投资结构在变化,他们自身也是一个群体,一个人炒股票,大家一块学。昨天的经验对未来有用吗?我也不知道也没有用。但是有一句话,就是怎么成功的就会自然死亡。


   还有一个问题,我们怎么分析?换个角度分析呗,我干过很多工作,从编程到投资,到各种放贷款,最后等我做资金池的时候,我的客户按理说搞数学的分析很牛,我都不信,我只是傍大款。所以换个角度,基金不仅只有一大堆费用,这些费用加起来就交2%,但是还有你看不到的费用。这些都要研究,其实隐性费用显著的高于显性费用的。这些数据尽管是公开的,只是没人看。


   现在罗素模式的FOF比较火,我们做营销都会讲一个噱头,因为这个非常好,因为讲故事显得自己很专业。现在所有做数学分析的人都说,有没有模型。说不知道森林模型都觉得很Low。人的存储是二进度,传导是生物电传导,跟计算机没区别。我们会宣传FOF,怎么去宣传呢?首先投资人需求,是长期需求,还是短期需求,还是养老需求,各种各样的需求不一样。还有一个问题,市场会有熊市、牛市、振荡市,根据不同行情有不同的投资经理有不同的特长,像这个人会买科技股,这个人会买价值投资,不同理念。一个问题是说,FOF作用是什么?我根据不同的市场,根据投资者不同的需求,判断它的市场情况,然后帮助你选择专业的投资经理人。逻辑很好是吧,但是根本没用,就是看的再好的逻辑,逻辑很完美是没有用的,这就是罗素模式,就是这样开始的,它会讲绩效,投资人限制800人,再到500人,做的很好,但是感觉太绕,基本都是忽悠人用的,没有任何用。


   我自己也做很多事情,也做投资,我觉得传统的投资太复杂了。我们就化繁为简,我自己搞了一个组合,2016年5月份,2800点建的,中国人一个很好的特点,喜欢追涨,不喜欢买跌。这些不看了,也不宣传了,可以上百度搜。


   投资逻辑很简单,刚才说了简单有效。怎么简单有效?就是比较。自从我买了港股很少买A股,因为便宜。但是后来怎么样不知道。其实大家都是金融行业的,我们做数据分析是赚钱最多的吗?

嘉宾:不是。


   郑志勇:显然不是。当然去赚更多的钱大家都进入金融行业。但是有一个问题,现在一个是金融行业最大的问题,是产能过剩,就是太多了,你会发现最近银行招聘,证券公司招聘越来越少,为什么少?因为金融危机的时候08年的时候,所有的实体行业都很惨,就是煤矿、采掘,造企业很惨,唯有金融行业好,为什么?国家放了4万亿。不管4万亿去哪儿了,做金融的都是雁过拔毛。还有加杠杆来回套,资金池套资金池。来回套的一个好处,就是钱没多,但是我的收入多了。为什么?我收了14倍。原来10万亿,现在收100万亿管理费,所以收入高。而且2008年-2015年是整个金融业的大年。我非常幸运赶上了。2015年之后是金融业的小年,就是开始严监管,去杠杆,很可怕。在金融行业,我现在不做了,我现在改做卖广告了,我发现卖广告比做金融还赚钱。所以我觉得现在来讲还是做复合型人才。


来源:CDA数据分析师峰会:大数据与金融分会场

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析师行业峰会 数据分析师行业 中国数据分析师 数据分析师 中国数据

admin_kefu 在职认证  发表于 2017-8-11 14:43:14 |显示全部楼层 |坛友微信交流群


   提问:我觉得这个是我今天听到最有个性的老师,我就问您一个关于金融的问题,就是说如何提升自己的金融信息?


   郑志勇:这个都非常好,我举个例子,刚才IBM老师讲的干审计,比如我说一个大羊毛党或者金融掮客,我怎么获取信息?把他们内部人买通就行了嘛。你会发现金钱是万能的,而且有金钱可以加速你的人生,加速迭代。就是一个创业型公司靠什么?靠风投涨的快。人生一样。


   提问:你好。刚才提到郑老师说,银行、证券不太景气,但是现在市场上看到做保险的突然非常火,各个保险公司都在拼命的招人,这个有点奇怪,想请教一下。


   郑志勇:给你讲个故事,保险公司一直很火爆,不是现在才火爆。它有一个模式,就是人员替换率是80%。就是说你去一个保险公司给你洗脑,什么最好,买保险最好,你就会买。然后说你完成任务有奖金,就先给自己爸妈买一份,给亲戚买一份。发现三个月过去了,一个问题,你如果成长以后,就跟创业公司一样,三四个月过去了,把这些多买一遍,你亲戚介绍客户,客户介绍客户就成长起来了。但是如果没有介绍的话你就被保险公司淘汰了。就是忽悠一个人你会给自己买一套,这个模式非常好。台湾是这样的模式,或者在整个亚洲文明或者东方文明最好的模式就是合法传销模式,就是这样去做的。保险的话也挺好的,但是我基本个人不买保险。火的话它一直很火。保险是仅次于银行从业人员最多的。


   提问:老师,你好。今天的话题是资产配置,我想问一下您怎么看待现在的智能投顾?


   郑志勇:你如果了解美国文化,我一直很纳闷,就是说美国人为什么要找投资顾问去填个表格,就是任何事都要填个表格,有一个电影《肖申克的救赎》,我看了三遍,第一遍很励志,这哥们儿很牛。看第二遍,这哥们儿做的银行投资顾问,狱警请他,典狱长也请他,因为他可以帮你填表格,报税什么的。看第三遍,我想应答老师带一百万美元巨款去美国存钱被抓起来了。就发现一个问题,在美国表格填错了会坐牢的或者请律师的,就是美国整个报税体系很严。在中国报税报错了有人找你吗?没有。就是说美国有投资顾问,投资顾问是要付费的。但是问题是你只有一千美元,我收10块钱,你会找我投顾吗?所以在美国的话投资顾问,就是人的投资顾问门槛是一百万美元资产起才有投顾。但是一个问题出来了,其实投顾概念很简单,或者有些有Tips,像我有两个基金,一个基金赚了10万美元,一个基金亏了5万美元,我这个人比较傻,傻到一月份卖了10万美元,然后缴税。下个月把亏5万美元的基金赎回了,我到税务局说能不能退税?肯定不退。所以聪明的人卖出一个有盈利的东西,还同时买出一个有亏损的东西,把税务平了。这是一个简单的逻辑。这是投资顾问的逻辑,帮你填表格,申报,规则很多,还有怎么按照这个规则省税,它有很多规则。还有就是指数基金,美国人买指数基金,然后最近我写一篇文章,就是世界最大的资产管理公司是贝莱德,它的管理规模是5.68万亿美元,这个公司一年的收入是多少?50亿美元。这如果中国有一个银行是5.68万亿美元,一年收入上千亿美元,但是这个公司一年才收50亿,所以整个费率基本不到千分之一,但是它是一个全球最大的指数基金。这样可以看到,其实对美国人来说投指数基金是最好的。但是你会说美国人真聪明,都买指数资金。我很纳闷,因为买指数资金使最明智的投资者。所以我得出来的结论是美国人很聪明。但是你看美国人算帐也算不清楚。最后发现美国的投顾是美国有法案,投顾收的钱加上经营管理费不能超过1%。就是给我顾问的钱和推荐你买的产品是不能超过1%的。我要多收钱,必须卖给你管理费最低的产品,你才能更多收管理费。但是另外发现一个问题,中国是怎么赚钱的?就是银行有两个产品,你会发现大妈去银行都会买保险,为什么?因为保险提成高。买十年趸交保险,分十年分期投的保险,今年投的三分之一的钱不止是三分之一,是六分之一。就是这十年给的提成至少是两万多。就是说你会发现中国的金融机构或者销售机构是帮着产品方骗客户,P2P也一样。所以这个文化是不一样的文化,在美国这个出来智能投顾了,因为美国的投资顾问是要付人工成本费的,费用很高,那能不能用一个智能技术,因为投资比较简单,收一点钱,然后做一点程序,这个收费很低,一年还不到一百美元。现在知道美国智能投顾,一,帮你节税,二,帮你做资产配置,配一些基础资金,三,根据你的年龄调节,比如你三十岁投的股权要比四十岁投的少。就是美国的智能投顾也是收费的,智能投顾到了中国就发现了一个很可怕的事情,为什么?中国的顾问收费吗?没有。在美国智能投顾,说我比别人低,所以用我的。而在中国投资顾问费没有。这样的话智能投顾在中国还能热起来吗?热不起来。所以中国智能投顾又附加了神圣之剑,很光辉,就是中国的智能投库能创造阿尔法。刚才说了所有人都会说智能投顾能跑赢人类,这是不可持续的。所以可以看到2015、2016年推的大数据指数,还有淘金的,还有雪球的,业绩都是回测很好,一跑出来都不好。但凡我们所有人想用数据分析能力去创造一个超阿尔法的东西,这是一件很可怕的事情,或者是吹牛可以,但是真正能做到很难很难。一年能做到超额收益,两年能做到超额收益,一年可能是幸运,两年可能是幸运,三年就不可能。基本上两年能跑赢的现在都没看到。所以智能投顾名字很好听。


   主持人:再次感谢郑老师精彩分享,而且也跟大家分享了很多有关投资领域的一些门道,能够帮助大家在未来的投资过程中更好的收益。



   主持人:接下来分享的是张丹老师,他是《R的极客理想》系列图书作者,有请张丹老师。


   张丹:大家好。感谢,今天下午很高兴来到这里跟大家分享R语言在量化投资方面的一些应用。我今天主要讲的模型其实是一个鼓利贴现模型,这是我们预测股票市场的一个模型。刚才听到郑老师讲的非常逗,因为他的交易经验很多,也做了很多事,他属于跳出三界外不在五行中的了,但是我们在五行中的人还是要脚踏实地,踏踏实实做起来,只有掌握了这些金融规律之后,才能想明白郑老师为什么说那些事情。因为我们在学习过程或者我们没有经历整个的交易市场,没有经历股市大幅波动,没有仔细研究这个市场是什么样的时候,可能听不懂一些东西。当把这些基础知识都具备了以后,其实很多感觉都会像郑老师似的,就是很多东西不相信的,就是教科书教给我们的东西跟市场有所偏差,这其中其实是出现了博弈的关系。博弈的过程其实就是思考的过程。


   我们开始是从大家一个共同的认知开始的,比如说我们在做金融交易或者说我们在炒股的时候,大家其实都会试图在找到价格被低估的股票。不管它的价位是怎么样的,我们都预期是便宜的,过一年会涨,涨完会抛它,所以我们在找到价格被低估的证券,然后买进低估证券,等价格高的时候再抛出去。这可能是我们大家普通炒股的认知。如何才能找到价格被低估的算法,可能会按照基数指标看股价,比如连续跌了10天或者20天,我可能认为是到了一个低点,这时候可能会买入。买完以后可能就等着涨。但是实际情况跌了20天,后面还会跌30天,这个都不好说的。怎么找到这些低估的股票呢,这就是我们今天讲的模型,今天我用这个分享的模型告诉大家,有一个办法找到这种低估的股票。今天话题分五个部分:一,发现错误的定价。为什么是低估的,因为定价是错误的。第二,了解鼓利贴现模型原理是什么样的,为什么能发现低估定价。第三,了解了模型以后投资机会在哪儿,怎么思考,这里有一个思维模式的转变。第四,拿一个现实市场的例子做分析来看一下它是否符合这个模型的预期。最后,用R语言实现。


   发现错误的定价,这个是我举的格力电器的股票,是从2011年到上周,格力的股票走势前几年都很平稳,到2015年经历了一波牛市长了不少。后面到2016年的时候开始下跌,从2016-2017年从谷底,就是2016年开始其实到现在格力一直在上涨。而且这个上涨我们看现在高峰值已经超过在2015年牛市最高值了。这个时候我们还能不能买格力?它的股价现在是41.02,这个股价是高了还是低了,能不能买怎么判断?有一种方法,我们可以看财报,我们可以用另外一种方法,看技术指标,看技术指标的时候它其实是高很多了,这个时候技术指标告诉我们不能买;但是看财报的时候我们会发现,要是看某个上市公司财报其实有很多的数据,这些数据大部分可能我们看不懂,但有些项是能看懂的,像净利润,我们看格力其实从2008年到2009、2010年每年都在涨,它的净利润在涨,所以股价在涨,这是合理的。但是净利润涨的幅度跟股价幅度涨的幅度是不是合理的,是不是一致的,这个要算。还有看很多指标,这些指标都是上市公司的公开指标,我们讲的模型也是根据这些指标有关系。就是今天讲的模型是基本面的模型,而不是技术指标的模型。


   这个模型到底我们要怎么去理解呢?我们认为某个上市公司或者某只股票自己有一个内在价值的,而它的股价其实是市场价格。它的股价由于,因为市场上有很多参与者,有投资方,有热钱炒作股价,股价会偏离它本身的内在价值。我们可以通过计算它的内在价值和它的股价的偏离程度来判断这只股票现在的价格是被高估了还是被低估了。比如说,当内在价值小于股价的时候,这只股票有可能高估了,因为价格高了;当内在价值大于股价的时候,代表这只股票低估了,它的价值便宜了。在这样情况下我们考虑当价格低估的时候买进这只股票,而当价格回归它的内在价值的时候我们抛出。中国几千只股票都可以用这种方式来做。其实这种思路是分析了上市公司的像财报分析的,所以这是属于基本面。这种方式我们也可以变成量化的模型,因为所有的财务都是基于数据的,有了数据我们就可以进行计算。


   刚才说的内在价值和股价之间的关系,我们怎么去描述呢,或者说股价是市场上我们可以看到的,价值是我们需要算的,基于这个现金流贴现方式是贴现的方式计算出股票的价值是怎么实现的。我们是通过股息来计算这只股票现金流是多少,再判断这只股票内在价值是什么样子。假如说这个股票是20块钱,每年会发1元红利给股东。可以把这个一元作为现金流的贴现反推出股票的内在价值。除了应用在股票上,也可以用在基金上。举个例子,假设某只股票A,假定我们买这个股票持有一年,预期它下一年可能每股会分红一块钱,它现在的股价是20,预期一年后的股价是22。这个时候我们要不要买这个股票?首先,这只股票现在是20,一年以以后是22,从价格上看它肯定是赚钱了。所以我们有可能去买。但是赚的钱是不是足够有吸引力?比如一年能赚一百块的机会,另一个是一年能赚十块钱的机会,你肯定会选择赚一百块的机会。所以这时候我们需要算一下它的股价增长和股利一年能够赚多少钱。所以这里有一个简单计算收益率的公式,如图所示。


   如果第二年的股价是19,不是22,我们刚才假设22我们能获得15%收益率。如果我们再套回这个公式,我们收益率变为零了。所以如果股价在一年之后下跌变成19块钱的时候,我们相当于没有任何的赚,所以这个时候有可能不会去买了。


   判断买还是不买,有一个资本资产定价模型,就是市场上每一只股票通过均值和方差表示的,就是计算市场上任何一个组合和任意一只股票的收益与某个共同的因素有关系。这个共同的因素可能是作为一个投资组合,就是某只股票可能会匹配到一定的投资组合上,然后拿这个股票合投资组合做一个标的,我们认为这个投资组合是市场上最优的投资组合。资本资产定价模型核心思想是用风险,就是资产价格取决于风险价格的补偿。直白来讲,当风险一样的时候,当我们把某个金融资产看作一样的时候,会选择资产收益率高的买,当收益的时候会买风险较低的。这样我们通过资本资产定价模型会算出一个必要收益率,就是我们买一个投资组合,这个投资组合会给我们一个必要的收益率。这个必要收益率可能会存在,比如说目前以沪深指数为必要收益率,这时候算出来假如买沪深300指数,那你持有一年的,你获得的收益率是10%。通过拿10%和之前的15%比,你会选择哪个?你可能会选择高于10%的。就是高于必要收益率的作为我们一个投资的,需要投资的一个产品。否则我就会买10%,因为10%是我固定买到的。


   这里有几个概念,一个是说我们实际买资产获得的预期的收益率,另外一个是必要收益率。通常我们会用预期的收益率跟实际市场必要收益率做比较。当预期收益率更高的时候我们会买更高的预期收益率的产品;如果预期收益率比必要收益率低的话,我们其实会买基于必要收益率来构建的投资组合的产品,也就是我们可能会买一些,比如按照最近的情况,我们可能会买沪深300的指数基金,或者买上证基金。


   假设我们算出来了必要收益率是多少,同时又知道预期的价格是多少,然后我们选出预期价格收益率,比如刚才算的15%,我通过预期的收益率的值,可以反推出现在股价应该是多少,我才能获得10%,15%的收益。就是我们知道了必要收益里,假如说必要收益率算出是10%,现在的股价是多少,我买这只股票就可以获得必要收益率。这个时候可以通过公式反推出来,结果就是知道这只股票现在内在价值等于20.99。也就是说,内在价值是20.99,而我们这个股票的当前的价格其实是20。这个时候内在价值就会大于股价。这个时候这个股票相当于就被低估了。我们看到刚才那两条线的时候,可能股价的线会在内在价值那条线的下面。这个时候我们就应该持有这个产品。因为它的股价已经低于它的价值。所以这个股价就被低估了。


   通过刚才第一小结的分享,就是我们通过思维方式的转变,通过一些分析我们会发现一种 套利的模式或者说一种评估某个金融资产是被高估和低估的模式。接下来我们把这个模式怎么变成一个具体应用的模型呢,这个在投资学叫股利贴现的模型。这个是股票估值模型中最基础的模型之一。它是基于股东分红来计算的。分红代表的是上市公司给股东的一部分现金流。这部分估值可以让投资人知道这个公司实际股票价格是多少,就是我们会算出内在价值。前提条件是公司必须有分红。对于有分红的上市公司股票或者有分红的基金可以用这个模型来算它的内在价值和它的现在的价格中间的差距,从而来判断我们到底要不要买这个股票。


   股利贴现模型根据分红发放的不同有三种模型:第一,零增长,第二,固定增长,第三,多段增长。什么叫零增长?就是每年发放的股利不变的。这个就是上市公司每年的业绩比较平稳,它只能拿出固定的方式来作为分红的方式。第二股利增长,就是股利每年都会增加,这种我们去套算法去算一下,我们发现这种方式每年的股利是以0.05%在增长,就是说股利在增长,为什么这样?因为这个公司的生长趋势或者净利润的趋势是在增长的,这个时候发放的股利也是增长的。但是我们通过是固定方式来算这个的,目前固定方式是算模型里最合适,就是最常用的一种方式。第三个模型,其实是叫多段式增长模型。因为整个的分红,上市公司的分红其实根据业绩的,当然它的业绩增长不一定是线性的,有可能今年净利润涨了10%,明年可能涨了20%,后年涨到5%,第四年赔了,第五年又涨了50%。所以某些公司的每年经营情况不一样,所以它的实际的分红也是不一样的,会根据公司的经营业绩去做。这个时候可能每年发放的股利也不一样。这种情况是目前市场最多的。我们看一个美国的AT&T股票,第一年发放了1.92,第二年是负的,第三年加了0.1,第四年加了0.65,这样我们连续算五年,如果五年都是按这种样子去分红1话,我们会倒推出这个公司现在的股票内在价值是多少呢,是36.09。这个代表这个公司现在的内在价值。它实际的股价是多少呢?实际股价是38.03。这时候发现股票的价格高于了它的内在价值。代表这个时候公司的股票价格被高估了。


   接下来我们看一下投资机会。这其实是一种思维模式,为什么金融市场会基于这种模型,它的思维模式是怎么想的?我们大家可能平常会想一个问题,这个问题首先是贴现率的问题。会想到明天、后天的一块钱今天值多少钱。而不是说我们现在的。反过来想就是现在的一块钱到明天、后天是多少钱。换句话说,今天投下去多少钱,明天、后天会赚回来一块钱,这是贴现率的问题。对于有效市场假说来说,在市场弱的情况下,表明市场价格已经充分反映了过去的信息,这样的话技术分析会失去作用,像看K线,会失去作用。半强式的有效假说是说市场充分公开,并且包括了一些前景的信息,如果包括这些,我们的市场分析也会失去作用。还有强式有效市场中,这样都不能获得超收益。但是市场是不是这样呢,市场有可能不是这样的。市场怎么做呢?大家很多人可能每天盯着K线搜集公司的基本信息,然后做宏观研究看年报,来发现被低估了的股票。为什么会有刚才的市场假说呢?这个其实就是理论模型和现实的区别。


   虽然刚才的市场有效假说变得很悲观,现在做金融研究还是用现在的模式,看K线,搜集公司资料等等,为什么?因为人是感性的,他会有自己的思维,不会完全依赖于数据考虑这个事,而且消息的话有人会获得更多的消息。虽然说消息已经很公开透明了,实际上有些人会获得更多的信息,而且大家看法是不一致的,有了不一致的看法就会有交易。我们会看到股价有时候被炒的很高,这代表股价其实是被过渡波动的,它应该会回归。


   下面介绍一个A股案例,这是招商银行的图,招商银行也是从2011年开始,我们看到招商银行到2015年大跌,跟格力一样,到2016年到现在又涨一波,这个涨的确实蛮快的,招商银行市值已经变得非常大了。我们可以看到招商银行每年都有定期分红,2016年7月13号分的,今年是7月14号分的,去年分的股利1.69/股,今年分的是1.74/股,没有都是连续的数据。对招商银行可以非常好的作为我们的案例,比如我们从万德还是哪儿下载一个数据,假设以2016年7月13号作为我们一个基础,股利像在1.69,除权那天一收盘价是17.05,增长率是2016-2015再除2015年的增长是0.07。这样就可以算出2017年的股价。假设2017年也是以除权那天的收盘价算的,如果我们2016年去买,可以获得收益率是29%,就是2016月7月13号买招商银行,到2017年7月14号收益率是29%。同时可以算2017年的数据推2018年的收益率是多少。这样截止到收盘价是7月20号的,这个收盘价是24.85,假设到2018年7月14号的时候收盘价还是24.85的话,这时候会获得20%的收益率。也就是说,这个价格可能现在已经到了,就是如果获得20%是我们的预期收益率,这个价值已经满足你了。把刚才算的合并到这个报表里可以这么看,这个报表包括股利收盘价,增长率,和我们的预测。


   接下来我们可以用程序实现,比如要做刚才的事,要重现的话需要三个数据,一个是招商银行股票数据,一个是招商银行的分红数据,第三个是指数的数据,比如以沪深300为指数,这是股价的数据,包括收盘价和除权后的收盘价,还有分红的数据,包括每年的分红数据,我们拿分红数据就可以建模。建模需要算一些指标,这个指标就是刚才说的,算完这些指标还需要算出必要收益率。也就是我们拿实际数据,假如无风险收益率,这边是3.8%。出沪深300从去年7月13号到今年7月14号的沪深300收益率是12%。我们查一下招商银行的beta是0.55。这个时候会算到,我们假设就做我们必要收益率,其实是8%是我们的一个必要收益率。假设我们买招商银行的获得收益率是多少呢?我们会把它变成一个表格去算,这样就会算出很多列来。我们分别看一下数据的集是什么样,一个是沪深300数据,一个是股票的数据,这个是招商银行的数据,这个是分红的数据,我们会合并到就是计算数据图,这个包括了日期,除权日期,税后分红,分红增长率,还有实际的收益率,同时我们基于资本变量算出必要收益率。这个K就是必要收益率,是0.08。我们获得必要收益率后我们对下一年进行预测。比如说我们下一年的股利,这样我们就得到后面的这些,它的下一年的股利,这是2016年预测2017年的股利。所以最后会得出这样的表,通过这个表来观察到底这些股票是,最后我们会算出基于2016年的数据算出这个股票的价值是多少。这个价值对于2017年来说内在价值是23.05,但是实际上它的收盘价是20.13,这个时候有偏差,代表内在价值是高于股价的,代表这个股价估多了。我们选四年看招商银行的股票哪些被低估了,我们看到四年都被低估了。对于2016年-2017年的收益率这个是非常高的。


   结论:寻找被低估的证券,即使极小的价格也可以让金融分析师获利,获利他就会有动力做这个事,然后把内在价值和股票去让它有价值。当你做这个事发现这个机会,就可以自己抓住这个机会赚钱。我觉得R语言是一个非常好的工具,我也在持盘中大量用R语言建模,有R的极客理想系列,现在写了三本书,最后一本是收官之作。最后一本应该在下个月会出版,如果大家对R语言图书感兴趣咱们后面可以继续交流。谢谢大家。

主持人:谢谢。这两年股票是很多人关心的事情,相信在座的各位肯定也有很多有去做股票的,因为时间的关系咱们现在可以有一个提问的机会。


   提问:张先生,你好。我感觉这是金融知识入门一个很好的讲座。我是在大学学金融的,你讲的是一些基本的东西,但是我想就几个观点的点提问。你的假设用RN和RF,就是市场风险补偿之类的,我觉得那是一个非常关键的点,得到这几个数字可以用各种方法,因为数据的连续性像三年还是五年是很有考究的,我想知道怎么用这个做决策?


   张丹:因为今天是一个分享,所以这个数据其实没有那么讲究,我只是从一些大家的认知,包括最近的认知去拿到的,并没有做深究。但是实在去做的时候,像您所说数据都是很讲究的,这个数据是来自什么地方,包括招商银行的beta,我是从万德抓出它做平均的,如果自己做beta并不是0.55这个值。每年的必要收益率,我这次算的是2016年7月13号到2017年7月14号算的,如果按照这样算法,每只股票分红时间不一样的,所以每只股票分红必要收益率是不一样的,必须分开算。因为今天是分享,只是把这个知识介绍给大家。


   提问:您觉得R语言有什么可以帮到的地方?


   张丹:因为R语言提供了很多工具包,它跟别的不一样,像用R语言的时候会用到投资的包或者风控的包,或者计算收益率的包。如果用Python或者其他语言的话,很多算法需要了解很多细节,但是用R语言,把原语言看明白之后我发现这个参数很全,语言怎么控制,我可以用R语言非常快的构建一个模型。像今天我跟大家讲的模型,可能完整写下来才30行,用其他语言做的至少几百行。


   提问:您的意思是?


   张丹:我是说大家用的语言不一样,但是R语言提供是这个行业知识的包,就是这个行业有什么包,R语言是把这些知识集中在一起。而Python是更多的第三方的支持,比如如何做一个连接数据库,如何做分布式,所以它更多的提供是IT技术角度来讲。而R语言可能更多的是跟某个行业知识相关的包。


   主持人:谢谢。下面有请天云大数据CEO雷涛老师与大家分享Fintech实践:从BI到AI的演进路径。


   雷涛:大家好。其实AI不是今天才出来的,在金融也用了很多数据挖掘,还SaaS等去做。今天的机器学习和昨天发生了很大的变化,我们如何规模化的将机器学习应用到银行,无论是风险,定价,反欺诈。这是上一周的财报一下子把亚马逊CEO推到风口浪尖了。他在年度股东会上汇报的说明书里提了一句话,我们看到这句话标志AI阶段性变化。第一个阶段,是人类将经验交给机器自动化实施。交给决策引擎就是JAVA的一套东西,自动化配置可以让机器自动化执行你从数据里挖掘出来的策略。这个经验可以拍脑袋想出来的,也可以是小数据挖掘出来的,它也比较静态,一个模型往往上线一年不会有太多的变化,是基于某个历史之前的数据挖掘出来的。今天我们会发现机器学习开始允许让我们难以精确描述规则的边界之内去完成。这是什么概念?实际上今天的机器学习因为算法和数据的规模带来一个质的提升,一个新的台阶爬上来之后,它可以完成更多我们基于答案的学习。就是人类将答案交给机器,就是当我们没有明确标准的前提下同样可以完成这个实施。在这个阶段不能回避的,第一个,我们拿什么交付给机器,这些答案是什么,这与我们传统学习发生了根本性的变化。这是我们讲的离线抽样对在线全量。像发卡是在移动端,对顾客的响应是即时即刻的。数据的鲜活和持续性最银行整个体系带来根本性的变化。第二个问题,计算能力。有时候我们常常用抽样的方法算。当我们能够有一个全局的建模方法,在线去做数据处理的时候,这样就可以用全量的数据做一些特征的表达。


   这是一个项目,这个典型的就是我们在一个银行里把一个一个孤立模型,我们怎么串接,利用数据一致性做了一个平台。这个项目事实上满足的需求,就是我们把模型与模型之间的连接通过数据动态的串起来。像它每天会跑出一百多万的卡片,第二个月还会翻。这每天的卡片数据只是每天生产流程,流程化处理,有不同节点的催收。现在把这些数据在流程里被我们标出来是哪些数据了,我们可以把在线的一百多万张卡片同样跑原来的模型去算权重指标,像区域、学历等明确指标来评估。就是利用这些违约数据的答案来对审批端进行有效的调整,对它的模型进行评估。看到这张图很简单,其实它涉及到在线交易平台的系统。


   后面我们会讲它在AI平台里有一个新的升维过程,和新的怎么用到高尖的算法,像深度学习等等怎么来使用。它就是将风险在前在中在后这三个风险贯穿在一起。


   第二个概念,静态个体对动态关联。这个时候我们提出一个架构,原来我们数据管理组织方式是在低维的,比如five低维的,很多时候这种手段是不足以表达的。像我们给人民银行做的一个担保系统,在多度的情况下很难被量化,虽然可以索引到。所以我们会考虑用一种新的方法来重新表达数据。这个向量的表达数据有很多算法可以引用,但是在基础结构很少,以前没有用这个来做。所以我们也推出了新的方法,也做了一些案例。像这是九鼎的借贷保,怎么解决熟人与熟人的连接我们量化出来的风险圈。像做白条业务的时候,你没有还钱,换了一张信用卡,重新进来的时候我怎么知道是你,用这种交叉的大概十几亿节点连接起来,从全局去看个体。这个案例不光在风险度量上,在营销上也会充分反馈。这两张图分别反映了我们两个项目的事实。这个网络就是周期太快,就是我怎么传播过程,这是C2C的传播过程,在这个过程我们要对答案激励。当资金没有到之前图是这样的,可以看到传播过程都是单点的,每一个种子节点发送以后给周边的群体后,他在朋友圈传播以后基本就结束了。这是一个网络。另外一个网络可以看到,这是一个个人的网络,这个人通过他传播以后,他像菊花一样不断的打开,因为每一个节点在重新激励,这个激励的成本其实很少的,只有一两块钱的小的红包,但是小的红包可以促发这个达人继续扩大他的营销网络。所以整个营销行为的跟踪和度量可以通过这个复杂网络实现。


   第三个观点,统计评分对机器学习。传统用SaaS的时候多数的算法还是基于统计类的多,学习类的少。在学习类的今天,跟传统的学习方法上有哪些变化,我讲一下我们现在看到的一些变化。因为有数据的变化,我们表达出现了一个很大的变化,我举一个很直观的例子,像深度学习的爆发,在几轮大赛上大家都看到深度学习很强的爆发。之前爆发的是一些特殊算法,这个特殊算法需要人强化经验抽象出去。包括在金融领域也是一样。在金融复杂的现象其实用人抽象特征的方法越来越受到挑战。这是一个例子,反欺诈,反欺诈贷中还比较好,因为贷中有大量线上行为已经暴露出来了,你有一个长项的风险暴露期。但是在申请期间是很有挑战的,因为这期间只有填申请包这么一个有限的信息,这个时候怎么表达信息,这么有限的时间内多数的方法是靠交叉验证,通过一些外部数据,或者通过一些黑名单来做,这个的覆盖率很低。所以这种环境下我们怎么把这个过程中来充分的表达出来。我们就使用了一些新的方法,像我们会升维,我们把有限的数据用刚才关联的方法投到全球的网络,这个申请的经验表我们会把它之间的关联关系捕捉了,这种捕捉对极端犯罪非常有效。像广东有一个集团经常开着车到一个村子以招工的名义收身份证。所以发现审证件的时候,它都是真实的,真实电话,真实地址,真实的身份证号码。这种特征在一个网络环境里会暴露出来,你身边有多少片,离一片有多远,做一些升维手段后会拿到更多的社交属性。这个社交属性不是微博,而是来自身边的社交属性。这个社交属性往往在不太均衡的前提下,什么是不太均衡?像每天申请信用卡只有几百个骗子,怎么平衡,它在后台强化,可以看到最后的表达效果,像随机森林,深度学习一些不同的变化。通过这种方式我们在传统金融属性之外我们获得了一些升维的数据,然后放到深度学习网络里可以带来2-3倍识别欺诈率的提升,而且是有进展的提升。


   我们可以看到一个变化,就是新的算法带来对弱特征的充分表达。这个并不是通过升维,通过引入更多的参数而获取的,而是我们通过只是使用了简单、重复的大量的数据,我们并没有说把维度扩展。这种表达给了我们一个坐标系,让很难用经验和语言描述的规则能够定量化。就像下围棋,怎么描述大局观,什么是棋风,这种可以反复迅速量化在节点上。这种思路和方法也成功的落地到金融上,尤其反欺诈,这个是最有效果的,我们在实践中看到。所以它怎么适应一些动态变化,就是靠数据持续的供应。


   现在在我们引入新的算法平台上有一些变化,这些变化最大的差异性举个例子,实际上开始我们对数据和模型的角色发生变化了,原来我们截图的时候发现传统做机器学习调参是最重要的动作,和评估某个核心的算法是核心动作,就是拿一个数据做一个假设,然后去求导它,或者用优化参数,最后得到一个上线的模型,然后结束了。它没有一个数据反馈模型。同时数据模型 本身价值,我们顶多看一下分布,然后来选择一些方法。但是我们在实践中当我们把AI平台交给客户的时候我们看到差异性,客户会对一个分类问题,会把分类算法在平台上涉及的算法都快速识别一遍,从随机森林到深度学习等都会尝试一遍,最后比较AUC的效果。所以第二轮版本干脆把用户做的也做了一个算法评估的平台,再第二期版本,直接把这些算法跑完以后,然后把评估方法给你对比出来了。这意味着什么呢?意味着我们开始重新思考数据对于模型的价值了。事实上我们用数据不是来调优参数的,而是用数据选择算法发现,在这个选择之下我们开始考虑一个更基础的问题,就是ABC,数据科学,数据,算例,三者有效结合才是快速有效的机器算法。这三者如何有效融合?我们从2015年不断研发,最后在2016年交付了一个平台型产品,这个平台就是把算例,在此之上我们又用把主流算法包重构,算法就是让业务人员能够快速使用平台的能力。这种平台能力有提供了几种:第一,FreeCoding,这种方法能够通过配置的方式,像刚才讲的,只需要选择数据的木百在哪里,技术函数是什么等等,定义下来这些之后就可以在生产环境下在线建立一个。当然不同的算法也有很多参数,有几百个参数供你调优,如果你会就调;不会的话可以在社区讨论。所以这大大降低的应用科学的门槛。另一边就是代码,通过REST接口整合,订阅算法包和数据分析模板,面向高阶用户,自主编写Spark,Scala,R,Python代码。我们现在R放弃掉了,就像刚才老师讲的它更偏向业务,在IT上太薄弱了,因为我们是并行化平台,所以现在开始对R放弃了。现在主要聚焦在Scala和Python来推业务。


   我们看到推动新技术很困难,在窄的应用环境很容易取数据,调优方法。但是现在看到越来越多的场景,现在通用的机器学习能力开始渐渐的被大家所接受了。因为大量的数据在流程里产生,大量的答案有监督的训练的前提被我们发现,在这种方式之下怎么把通用的机器学习能力快速的推到行业,推到市场。具体的方法我们不再依赖少数的数,我们能不能像青鸟一样在上个十五年培养JAVA的方式培养AI的人工智能的平台。我自己的职业感悟,我画的这个图就是十五年前的事情,2002年我们自己在推OTA业务,当时服务,OTA就是移动互联网前身的一个小的应用。大家有印象的话还能记住那回儿手机里有俄罗斯方块。十五年前出现这些游戏很困难的,当时只有摩托罗拉和诺基亚开放这样的游戏。能够开发这个游戏其实难度在于你需要从底层的数据,从底层的硬件能够一直写到屏幕适配。所以刚才讲的肯定是大公司才能做的事。四年以后有人开发了安卓平台,一下把这个做起来了。一个大学生团队就能写出来,这么一个简单的方法带来了十五年移动互联网。在人工智能下一个十五年如何像安卓一样,能够将机器学习普适给行业的使用方法。去年推了很多,去年四月份亚马逊的产品,还有FB的相应一系列的AI PaaS化做出来了,就是提供通用性的机器学习平台。我给大家汇报的就是这些内容,其实我们也是看,因为这实际上是今天的题目,就是谈AI,这么大一个话题,实际上我们不希望探讨做AI就是那几位。德勤的报告给了一个很好的数据,这些少数人斯坦福等等毕业的人才98%都被FB囊括了,未来我想当这个能力释放给更多人群的时候就不是象牙塔里,而是能规模化,程序化和数据化,已经规模和成熟的企业,金融是一个,我们现在在Fintech刚刚起步,因为金融信息化程度比较高,未来我相信会有更多,像物联网一些数据的产生,都会到数据科学的应用里来。更多时候我期待大家从会场走出去后,放弃规则和经验,我们尝试从数据里,利用新的工具找到下一个更大的机遇爆发点。谢谢大家。


   主持人:谢谢。下面有请北京赛智时代信息技术咨询有限公司CEO赵刚老师为我们分享。


   赵刚:非常感谢CDA给我这个机会来交流,我们最近做的一些事情。我是来自一家我自己的公司,我们主要做的是TMT产业的一些产业研究,战略咨询。在做咨询的过程中,我们也一直在研究各个产业,包括金融机构,包括政府,在研究一些前沿产业,比如每年我们也发布人工智能,区块链,大数据,金融科技等各类的研究报告。在过程中我们希望说随着我们自身的研究的进展,我们希望有一部分能够通过数据的积累,能够逐步取代一部分以往咨询师、分析师手中的一部分工作,这部分工作也许能通过数据服务,让咨询师解放出来,能更多的和机器数据结合的更多的策略性的服务。所以这个过程中我们在今年上半年推出了基于TMT产业双创企业的数据分析服务,作为第三方数据服务推给政府客户,金融客户。


   我今天利用这个时间,一方面是来向各位数据分析师学习,因为我们是做产业分析的,虽然也有关于数据分析的内容,但是过去工作更多是策略方面的;一方面是在我们享受数据分析的时候我们大概思考的过程,以及这个过程中怎么建立起平台,怎么采集数据,怎么建立模型,最后接下来服务怎么提供出来,我们有哪些困惑,希望跟各位交流,希望更多的大家感兴趣于数据分析做创业,做服务的这样一些数据分析师进行深入的交流。


   首先,我们在做这件事情的时候我们也看,说我们现有的资源,我们的数据能不能服务到更大的市场领域来看。首先看还是我们在金融领域,我们更多的关注于在金融领域,在投资领域的数据分析。大家都知道的在二级市场,像万德这样的数据服务商有很好的服务。我们选择了一个可能的市场,就是在创新创业的市场,它可能对应的是我们一些天使投资人,对风险投资,新三板,创业板,甚至是一些互联网金融的众筹、金融等等这样的机构。在这个市场上有没有市场机会呢,首先看一个市场,应该来说通过近几年来看,应该说创新创业市场的机会是日益显现持续的。我们看这几年的数据,随着国家双创意见的发布,在2015和2017年都有两个意见,包括克强总理走到哪里口头上说的最多的还是双创。在这个过程中我们在2016年就有7200家众创空间,2017年上半年数据,新登记市场有887万户,现在市场达到7千万户,所以可以看到市场是有潜力的。这个过程中因为金融是整个虚拟经济的血脉,对金融来说有没有这样的对实体的,对创新创业的支撑?我们看到说其实在整个金融领域,普惠金融是未来一个重要发展的引擎。普惠金融能让金融服务到各方面,包括老人、小孩儿和扶贫对象。但是从普惠金融还是希望服务到更多的中小微企业。现在金融最大的问题是金融是嫌贫爱富的,更多看中的是大企业,给它贷款,对中小微企业是缺乏有效的贷款和服务方式的。国家在推行双创过程中普惠现在金融也是未来金融的一个基石,按照未来金融发展的规划,也提到了让重点服务对象及时获取价格合理,方便便捷的金融服务。我们看这样的数据服务将来服务的客户对象是谁呢?我们分析在普惠金融发展过程中,究竟有哪些新的生态会出来,究竟有哪些针对中小企业,中小创业公司的新的服务方式和产品出现呢,它们在服务中关注中小企业的什么数据和信息呢,在这个过程中我有什么样的风险防范体系建设,这实际上就是我们数据服务所带来的市场客户。我未来的客户定位在科技银行和小微银行,创业板、新三板、债券市场的分析,特别是新三板,对天使投资、创业投资直接融资方式的有效支持,我能不能弥补这块空白来推动我的服务。这些东西可能是我设计数据服务产品的时候我针对的客户以及数据服务过程中所能够提供的这样的一些最根本的的买单对象就是他们。所以我们在这个过程进一步分析看,说数据分析可能就是我服务好,做好普惠金融。我们能不能针对这样的服务研究,我怎么能够做到让我的服务做到帮助这些针对中小微企业的金融机构,能够给他们提供,比如帮它找好什么样的方向,告诉它什么样的方向才是最好的投资方向,告诉它在这一堆中小企业中,可能筛选出来的中小企业是最具备投资价值的,告诉他在这个过程中能提供什么样的产品和服务,怎么样才能满足这些中小企业的,让它取得更好的成功,也保证它取得成功,也代表着你投资的成功。最后就是说怎么能够防范这些中小企业的信用,所以中小企业的信用评估也是重要的一方面。


   所以我们数据模型建立过程中会围绕这些方向,比如整个的对产业趋势的判断,我怎么分析各个产业趋势,我怎么找到每个产业趋势项目的投资价值,它的模型该怎么建设,以及这些项目中它的每家企业项目的风险评估模型是怎么建立的,从而建立起来对于整个金融的服务的方式。


   我们说经过几个月,我们原来是咨询公司去做具体分析,这也是我们的一个突破,但是这个过程中我们逐步建立起来,我们叫Innov100,就是创新一百的数据分析平台,希望从这个过程中,从产业分析入手,逐步纳入投资分析,纳入信用分析,纳入它的科技能力评估分析,逐步建立起来对整个TMT产业创新数据分析平台。建立这个平台第一步解决的就是数据来源的问题。因为我们现在分析的对象就是中小企业,所以现在无论从天眼还是哪儿的数据库,建立起一个工商数据库,这个数据库已经建起来,大概有七千万的数据,而且跟大的机构之间,我们建立了很好的接口,能保证数据及时的更新。所以在什么时候第一时间注册了一家企业,我也会在我的平台上第一时间发现这家企业。这家企业的一些基本工商属性我是能够通过这样的数据库建起来,所以这是我们的基础数据库。在这个基础上我进一步把这个产业属性分析,我更关注创新创业TMT企业,我们按照这个类似划分,大概有50万的企业规模。进一步在这个企业规模下我的人工和数据分析结合起来的两部分,重点分析的是在这个过程中最具创新价值的50万企业。所以对整个数据的维度也是不一样的。在这个过程中我们建立了所谓的一些具体的产品和服务,包括数据的雷达,就是精准定位赛道项目,包括我们数据洞察,包括对每个企业数据进行分析这样的平台。这些数据分析的维度刚才我们讲到了,主要还是围绕着用户需求导向,从业务的角度分析看客户需要什么样的数据,我们在线免费提供给分析数据图,同时也有针对客户专门制定了一些数据分析模型的方法。在这个基础上我们希望逐步延伸出来智能报告的,就是结合我们以往的规则经验,以及基于一些自然语言理解方面的技术,我们能够自动生成一些过去分析师来完成的报告。进一步我们也在研究基于人工智能和我们咨询师经验组合的智能的,我们叫创新大师投资顾问的投研,从而形成我们整个平台的价值。

构建的过程刚才也讲了,一方面我们还是按照整个的TMT前沿产业进行产业分类,在现在我们26个一级产业,600多个三级细分产业,每个细分产业重点吸收一下刚才讲的五万家的分析。在这个数据库基础上基于我们以往产业数据分析的模型,以及我们现在在数据分析本身算法上提供的一些模型来进行相关的产业数据分析,当然这个还是刚才讲的业务导向,在这个基础上我们进行运营场景和专题的分析。把这个分析的数据、产品、模型和服务我们还是以第三方商业服务的方式提供给政府,比如现在有些像政府的在TMT产业创新方面的监测,比如给金融机构提供的关于中小微企业的商业信用和产业投资的新的专项的定制服务,来满足现有的一些市场对我们的数据分析的要求。


   这是我们一些平台的界面,我简单的展现一下,像我们的进行时就是关注,像目前新的投资项目涌现出来,它们投资的主要对象,像活跃的投资机构,活跃的投资区域,这是和政府合作的要有一些关于区域创新指数的研究,包括在每个项目中进行项目筛选,项目结果展现,这是按照时间维度,我们叫项目进行时。也有关于整个项目的所谓的我们说的创业黑马,等等一些具体项目,我们可以进行展示。也有我们所谓的数据雷达,就是我们按照基本的还是,因为有些方面我们非常擅长的一点,我们一直在做产业研究,对产业的行业属性是比较清楚的,所以这种能力把它变成数据模型所具备的能力,我们逐步构建起一个对于这些将近几十万家企业的数据我们能够自动的进行产业的筛选和分类。这里我们有相关产业数据库,投融资数据库,创始人数据库,现在正在构建科技,就是一个创业项目科技能力的数据库。通过这些数据库的组合和筛选,我们能够使得我们服务对象能够快速的找到你所需要的项目和你所需要的企业。


   这是我们一些基本的分析,目前来说我们提供的分析还是基于我们的数据库,基于我们一些第三方的数据分析的软件,我们来构建起来一些基本的数据分析的模型。比如说寻找赛道的,比如说每个时间段不同赛道的比较,从不同的角度来对这些项目进行不同维度的,所BI也好,说是数据分析也好,我们用一种可视化的方法提供给我们的客户,让他对整个产业的发展有更直观的判断。比如说这是一创始人的分析,对每个创始人有创始人的数据库,你的创始人,你以往的公司,你以往的院校,你关注的产业,哪些投资机构投资了你,整个创始人科技能力等等,我们会构建起一个知识图谱,来分析每个项目之间相互的关系,找出这个创始人,这个人可能是阿里系,可能是清华大学毕业的,等等的,把这些因素组合起来,来去做一个现在相关的分析。包括对每个项目,其实我们在逐步构建起说,对你的项目投资价值而言究竟是哪些因素能够更使得你这个项目成功,是风险投资更能影响你项目成功,还是项目创始团队,整个团队的能力,还是你在整个资产的状况,技术状况,还是整个你所从事的赛道的政策和整个行业发展趋势,还是你所处于的区域的影响因素。通过这种不同影响因素对创业项目的判断,从而形成我们对创业项目的价值分析和判断。这是我们关键核心的一个模型,这也是我们整个服务的非常基础性的一个模型。


   当然我们也去探索商业模式,这个过程中我们大部分还是服务是免费的。登录我们的项目注册用户以后,就能获得一些相关的信息。当然我们针对行业用户有一些深度的东西,在这个过程中我们有会员制的,享受更深度数据分析的一些报告,一些更深度的数据。包括一些定制化的,我们还根据你的需求,自动化的做一些定制的报告,这是我刚才讲的自动生成的报告,很快捷的生成对一个项目的判断,还有一些增值服务,从而构建起,就是我们的特点还是基于我们以往咨询的经验结合我们数据分析的服务,共同给客户提供更加完整快捷,更加清晰的数据解决方案。


   刚才讲的数据库有七千万的工商企业的数据,在这里有50万的TMT行业数据,还有5万多详细的创业项目的数据,而这个数据还在不断增长。大家知道我们很多数据还是网上爬的,这些数据要放到数据库,但是我们同时希望建立起包括卡夫卡这样非结构化的数据,特别是我们跟一些合作伙伴共同建立的,对于这个创业项目创始人的微信、微博,包括一些新媒体方面的数据的采集和分析,共同使这个数据库越做越大,我们对整个创新型企业项目掌握的更加丰富。


   现在推进的一个项目是Innov100的线上服务,还有就是在我们专业的,精准的看到,特别是我们认为在五万到十万加创新创业企业中更大维数据的采集,包括大数据分析,包括业务导向的模型,以及在人工智能等领域方面的算法应用,当然我们现在关注的数据还是比较低频的一些数据,因为我们整个阶段是比较早期的,当然我们跟更多的,跟后期的一些数据的结合,在这个过程中我们也会逐步的加大对人工智能技术方面在我们整个数据分析中的应用。这就是我们一个大概的情况。


   通过简单的介绍我就想,其实我们过去是一家咨询公司,咨询公司今天想去做数据分析的服务,讲了一下这个大概的过程,我们分析行业趋势,分析整个市场,谁是我们的客户,分析最终我们的产品和服务是什么样,可能未必真正说用了多少我们说的各类的算法,但是我们首先解决的是客户眼前最迫切的一些需求,在逐步解决更多需求的时候我们会引入更多数据分析的技术,包括人工智能技术来解决客户实际的分析问题,最终把我们平台打造成为一个非常专业的,科技含量非常高的第三方的数据分析服务。也希望借助这个场合希望更多的数据分析师加入我们团队,共同和我们一起来对产业创新数据服务进行更好的发展。谢谢各位。




使用道具

感谢分享

使用道具

航行天下314 学生认证  发表于 2019-6-18 09:57:29 来自手机 |显示全部楼层 |坛友微信交流群
挺有用的,支持

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-26 10:55