提问:我觉得这个是我今天听到最有个性的老师,我就问您一个关于金融的问题,就是说如何提升自己的金融信息?
郑志勇:这个都非常好,我举个例子,刚才IBM老师讲的干审计,比如我说一个大羊毛党或者金融掮客,我怎么获取信息?把他们内部人买通就行了嘛。你会发现金钱是万能的,而且有金钱可以加速你的人生,加速迭代。就是一个创业型公司靠什么?靠风投涨的快。人生一样。
提问:你好。刚才提到郑老师说,银行、证券不太景气,但是现在市场上看到做保险的突然非常火,各个保险公司都在拼命的招人,这个有点奇怪,想请教一下。
郑志勇:给你讲个故事,保险公司一直很火爆,不是现在才火爆。它有一个模式,就是人员替换率是80%。就是说你去一个保险公司给你洗脑,什么最好,买保险最好,你就会买。然后说你完成任务有奖金,就先给自己爸妈买一份,给亲戚买一份。发现三个月过去了,一个问题,你如果成长以后,就跟创业公司一样,三四个月过去了,把这些多买一遍,你亲戚介绍客户,客户介绍客户就成长起来了。但是如果没有介绍的话你就被保险公司淘汰了。就是忽悠一个人你会给自己买一套,这个模式非常好。台湾是这样的模式,或者在整个亚洲文明或者东方文明最好的模式就是合法传销模式,就是这样去做的。保险的话也挺好的,但是我基本个人不买保险。火的话它一直很火。保险是仅次于银行从业人员最多的。
提问:老师,你好。今天的话题是资产配置,我想问一下您怎么看待现在的智能投顾?
郑志勇:你如果了解美国文化,我一直很纳闷,就是说美国人为什么要找投资顾问去填个表格,就是任何事都要填个表格,有一个电影《肖申克的救赎》,我看了三遍,第一遍很励志,这哥们儿很牛。看第二遍,这哥们儿做的银行投资顾问,狱警请他,典狱长也请他,因为他可以帮你填表格,报税什么的。看第三遍,我想应答老师带一百万美元巨款去美国存钱被抓起来了。就发现一个问题,在美国表格填错了会坐牢的或者请律师的,就是美国整个报税体系很严。在中国报税报错了有人找你吗?没有。就是说美国有投资顾问,投资顾问是要付费的。但是问题是你只有一千美元,我收10块钱,你会找我投顾吗?所以在美国的话投资顾问,就是人的投资顾问门槛是一百万美元资产起才有投顾。但是一个问题出来了,其实投顾概念很简单,或者有些有Tips,像我有两个基金,一个基金赚了10万美元,一个基金亏了5万美元,我这个人比较傻,傻到一月份卖了10万美元,然后缴税。下个月把亏5万美元的基金赎回了,我到税务局说能不能退税?肯定不退。所以聪明的人卖出一个有盈利的东西,还同时买出一个有亏损的东西,把税务平了。这是一个简单的逻辑。这是投资顾问的逻辑,帮你填表格,申报,规则很多,还有怎么按照这个规则省税,它有很多规则。还有就是指数基金,美国人买指数基金,然后最近我写一篇文章,就是世界最大的资产管理公司是贝莱德,它的管理规模是5.68万亿美元,这个公司一年的收入是多少?50亿美元。这如果中国有一个银行是5.68万亿美元,一年收入上千亿美元,但是这个公司一年才收50亿,所以整个费率基本不到千分之一,但是它是一个全球最大的指数基金。这样可以看到,其实对美国人来说投指数基金是最好的。但是你会说美国人真聪明,都买指数资金。我很纳闷,因为买指数资金使最明智的投资者。所以我得出来的结论是美国人很聪明。但是你看美国人算帐也算不清楚。最后发现美国的投顾是美国有法案,投顾收的钱加上经营管理费不能超过1%。就是给我顾问的钱和推荐你买的产品是不能超过1%的。我要多收钱,必须卖给你管理费最低的产品,你才能更多收管理费。但是另外发现一个问题,中国是怎么赚钱的?就是银行有两个产品,你会发现大妈去银行都会买保险,为什么?因为保险提成高。买十年趸交保险,分十年分期投的保险,今年投的三分之一的钱不止是三分之一,是六分之一。就是这十年给的提成至少是两万多。就是说你会发现中国的金融机构或者销售机构是帮着产品方骗客户,P2P也一样。所以这个文化是不一样的文化,在美国这个出来智能投顾了,因为美国的投资顾问是要付人工成本费的,费用很高,那能不能用一个智能技术,因为投资比较简单,收一点钱,然后做一点程序,这个收费很低,一年还不到一百美元。现在知道美国智能投顾,一,帮你节税,二,帮你做资产配置,配一些基础资金,三,根据你的年龄调节,比如你三十岁投的股权要比四十岁投的少。就是美国的智能投顾也是收费的,智能投顾到了中国就发现了一个很可怕的事情,为什么?中国的顾问收费吗?没有。在美国智能投顾,说我比别人低,所以用我的。而在中国投资顾问费没有。这样的话智能投顾在中国还能热起来吗?热不起来。所以中国智能投顾又附加了神圣之剑,很光辉,就是中国的智能投库能创造阿尔法。刚才说了所有人都会说智能投顾能跑赢人类,这是不可持续的。所以可以看到2015、2016年推的大数据指数,还有淘金的,还有雪球的,业绩都是回测很好,一跑出来都不好。但凡我们所有人想用数据分析能力去创造一个超阿尔法的东西,这是一件很可怕的事情,或者是吹牛可以,但是真正能做到很难很难。一年能做到超额收益,两年能做到超额收益,一年可能是幸运,两年可能是幸运,三年就不可能。基本上两年能跑赢的现在都没看到。所以智能投顾名字很好听。
主持人:再次感谢郑老师精彩分享,而且也跟大家分享了很多有关投资领域的一些门道,能够帮助大家在未来的投资过程中更好的收益。
主持人:接下来分享的是张丹老师,他是《R的极客理想》系列图书作者,有请张丹老师。
张丹:大家好。感谢,今天下午很高兴来到这里跟大家分享R语言在量化投资方面的一些应用。我今天主要讲的模型其实是一个鼓利贴现模型,这是我们预测股票市场的一个模型。刚才听到郑老师讲的非常逗,因为他的交易经验很多,也做了很多事,他属于跳出三界外不在五行中的了,但是我们在五行中的人还是要脚踏实地,踏踏实实做起来,只有掌握了这些金融规律之后,才能想明白郑老师为什么说那些事情。因为我们在学习过程或者我们没有经历整个的交易市场,没有经历股市大幅波动,没有仔细研究这个市场是什么样的时候,可能听不懂一些东西。当把这些基础知识都具备了以后,其实很多感觉都会像郑老师似的,就是很多东西不相信的,就是教科书教给我们的东西跟市场有所偏差,这其中其实是出现了博弈的关系。博弈的过程其实就是思考的过程。
我们开始是从大家一个共同的认知开始的,比如说我们在做金融交易或者说我们在炒股的时候,大家其实都会试图在找到价格被低估的股票。不管它的价位是怎么样的,我们都预期是便宜的,过一年会涨,涨完会抛它,所以我们在找到价格被低估的证券,然后买进低估证券,等价格高的时候再抛出去。这可能是我们大家普通炒股的认知。如何才能找到价格被低估的算法,可能会按照基数指标看股价,比如连续跌了10天或者20天,我可能认为是到了一个低点,这时候可能会买入。买完以后可能就等着涨。但是实际情况跌了20天,后面还会跌30天,这个都不好说的。怎么找到这些低估的股票呢,这就是我们今天讲的模型,今天我用这个分享的模型告诉大家,有一个办法找到这种低估的股票。今天话题分五个部分:一,发现错误的定价。为什么是低估的,因为定价是错误的。第二,了解鼓利贴现模型原理是什么样的,为什么能发现低估定价。第三,了解了模型以后投资机会在哪儿,怎么思考,这里有一个思维模式的转变。第四,拿一个现实市场的例子做分析来看一下它是否符合这个模型的预期。最后,用R语言实现。
发现错误的定价,这个是我举的格力电器的股票,是从2011年到上周,格力的股票走势前几年都很平稳,到2015年经历了一波牛市长了不少。后面到2016年的时候开始下跌,从2016-2017年从谷底,就是2016年开始其实到现在格力一直在上涨。而且这个上涨我们看现在高峰值已经超过在2015年牛市最高值了。这个时候我们还能不能买格力?它的股价现在是41.02,这个股价是高了还是低了,能不能买怎么判断?有一种方法,我们可以看财报,我们可以用另外一种方法,看技术指标,看技术指标的时候它其实是高很多了,这个时候技术指标告诉我们不能买;但是看财报的时候我们会发现,要是看某个上市公司财报其实有很多的数据,这些数据大部分可能我们看不懂,但有些项是能看懂的,像净利润,我们看格力其实从2008年到2009、2010年每年都在涨,它的净利润在涨,所以股价在涨,这是合理的。但是净利润涨的幅度跟股价幅度涨的幅度是不是合理的,是不是一致的,这个要算。还有看很多指标,这些指标都是上市公司的公开指标,我们讲的模型也是根据这些指标有关系。就是今天讲的模型是基本面的模型,而不是技术指标的模型。
这个模型到底我们要怎么去理解呢?我们认为某个上市公司或者某只股票自己有一个内在价值的,而它的股价其实是市场价格。它的股价由于,因为市场上有很多参与者,有投资方,有热钱炒作股价,股价会偏离它本身的内在价值。我们可以通过计算它的内在价值和它的股价的偏离程度来判断这只股票现在的价格是被高估了还是被低估了。比如说,当内在价值小于股价的时候,这只股票有可能高估了,因为价格高了;当内在价值大于股价的时候,代表这只股票低估了,它的价值便宜了。在这样情况下我们考虑当价格低估的时候买进这只股票,而当价格回归它的内在价值的时候我们抛出。中国几千只股票都可以用这种方式来做。其实这种思路是分析了上市公司的像财报分析的,所以这是属于基本面。这种方式我们也可以变成量化的模型,因为所有的财务都是基于数据的,有了数据我们就可以进行计算。
刚才说的内在价值和股价之间的关系,我们怎么去描述呢,或者说股价是市场上我们可以看到的,价值是我们需要算的,基于这个现金流贴现方式是贴现的方式计算出股票的价值是怎么实现的。我们是通过股息来计算这只股票现金流是多少,再判断这只股票内在价值是什么样子。假如说这个股票是20块钱,每年会发1元红利给股东。可以把这个一元作为现金流的贴现反推出股票的内在价值。除了应用在股票上,也可以用在基金上。举个例子,假设某只股票A,假定我们买这个股票持有一年,预期它下一年可能每股会分红一块钱,它现在的股价是20,预期一年后的股价是22。这个时候我们要不要买这个股票?首先,这只股票现在是20,一年以以后是22,从价格上看它肯定是赚钱了。所以我们有可能去买。但是赚的钱是不是足够有吸引力?比如一年能赚一百块的机会,另一个是一年能赚十块钱的机会,你肯定会选择赚一百块的机会。所以这时候我们需要算一下它的股价增长和股利一年能够赚多少钱。所以这里有一个简单计算收益率的公式,如图所示。
如果第二年的股价是19,不是22,我们刚才假设22我们能获得15%收益率。如果我们再套回这个公式,我们收益率变为零了。所以如果股价在一年之后下跌变成19块钱的时候,我们相当于没有任何的赚,所以这个时候有可能不会去买了。
判断买还是不买,有一个资本资产定价模型,就是市场上每一只股票通过均值和方差表示的,就是计算市场上任何一个组合和任意一只股票的收益与某个共同的因素有关系。这个共同的因素可能是作为一个投资组合,就是某只股票可能会匹配到一定的投资组合上,然后拿这个股票合投资组合做一个标的,我们认为这个投资组合是市场上最优的投资组合。资本资产定价模型核心思想是用风险,就是资产价格取决于风险价格的补偿。直白来讲,当风险一样的时候,当我们把某个金融资产看作一样的时候,会选择资产收益率高的买,当收益的时候会买风险较低的。这样我们通过资本资产定价模型会算出一个必要收益率,就是我们买一个投资组合,这个投资组合会给我们一个必要的收益率。这个必要收益率可能会存在,比如说目前以沪深指数为必要收益率,这时候算出来假如买沪深300指数,那你持有一年的,你获得的收益率是10%。通过拿10%和之前的15%比,你会选择哪个?你可能会选择高于10%的。就是高于必要收益率的作为我们一个投资的,需要投资的一个产品。否则我就会买10%,因为10%是我固定买到的。
这里有几个概念,一个是说我们实际买资产获得的预期的收益率,另外一个是必要收益率。通常我们会用预期的收益率跟实际市场必要收益率做比较。当预期收益率更高的时候我们会买更高的预期收益率的产品;如果预期收益率比必要收益率低的话,我们其实会买基于必要收益率来构建的投资组合的产品,也就是我们可能会买一些,比如按照最近的情况,我们可能会买沪深300的指数基金,或者买上证基金。
假设我们算出来了必要收益率是多少,同时又知道预期的价格是多少,然后我们选出预期价格收益率,比如刚才算的15%,我通过预期的收益率的值,可以反推出现在股价应该是多少,我才能获得10%,15%的收益。就是我们知道了必要收益里,假如说必要收益率算出是10%,现在的股价是多少,我买这只股票就可以获得必要收益率。这个时候可以通过公式反推出来,结果就是知道这只股票现在内在价值等于20.99。也就是说,内在价值是20.99,而我们这个股票的当前的价格其实是20。这个时候内在价值就会大于股价。这个时候这个股票相当于就被低估了。我们看到刚才那两条线的时候,可能股价的线会在内在价值那条线的下面。这个时候我们就应该持有这个产品。因为它的股价已经低于它的价值。所以这个股价就被低估了。
通过刚才第一小结的分享,就是我们通过思维方式的转变,通过一些分析我们会发现一种 套利的模式或者说一种评估某个金融资产是被高估和低估的模式。接下来我们把这个模式怎么变成一个具体应用的模型呢,这个在投资学叫股利贴现的模型。这个是股票估值模型中最基础的模型之一。它是基于股东分红来计算的。分红代表的是上市公司给股东的一部分现金流。这部分估值可以让投资人知道这个公司实际股票价格是多少,就是我们会算出内在价值。前提条件是公司必须有分红。对于有分红的上市公司股票或者有分红的基金可以用这个模型来算它的内在价值和它的现在的价格中间的差距,从而来判断我们到底要不要买这个股票。
股利贴现模型根据分红发放的不同有三种模型:第一,零增长,第二,固定增长,第三,多段增长。什么叫零增长?就是每年发放的股利不变的。这个就是上市公司每年的业绩比较平稳,它只能拿出固定的方式来作为分红的方式。第二股利增长,就是股利每年都会增加,这种我们去套算法去算一下,我们发现这种方式每年的股利是以0.05%在增长,就是说股利在增长,为什么这样?因为这个公司的生长趋势或者净利润的趋势是在增长的,这个时候发放的股利也是增长的。但是我们通过是固定方式来算这个的,目前固定方式是算模型里最合适,就是最常用的一种方式。第三个模型,其实是叫多段式增长模型。因为整个的分红,上市公司的分红其实根据业绩的,当然它的业绩增长不一定是线性的,有可能今年净利润涨了10%,明年可能涨了20%,后年涨到5%,第四年赔了,第五年又涨了50%。所以某些公司的每年经营情况不一样,所以它的实际的分红也是不一样的,会根据公司的经营业绩去做。这个时候可能每年发放的股利也不一样。这种情况是目前市场最多的。我们看一个美国的AT&T股票,第一年发放了1.92,第二年是负的,第三年加了0.1,第四年加了0.65,这样我们连续算五年,如果五年都是按这种样子去分红1话,我们会倒推出这个公司现在的股票内在价值是多少呢,是36.09。这个代表这个公司现在的内在价值。它实际的股价是多少呢?实际股价是38.03。这时候发现股票的价格高于了它的内在价值。代表这个时候公司的股票价格被高估了。
接下来我们看一下投资机会。这其实是一种思维模式,为什么金融市场会基于这种模型,它的思维模式是怎么想的?我们大家可能平常会想一个问题,这个问题首先是贴现率的问题。会想到明天、后天的一块钱今天值多少钱。而不是说我们现在的。反过来想就是现在的一块钱到明天、后天是多少钱。换句话说,今天投下去多少钱,明天、后天会赚回来一块钱,这是贴现率的问题。对于有效市场假说来说,在市场弱的情况下,表明市场价格已经充分反映了过去的信息,这样的话技术分析会失去作用,像看K线,会失去作用。半强式的有效假说是说市场充分公开,并且包括了一些前景的信息,如果包括这些,我们的市场分析也会失去作用。还有强式有效市场中,这样都不能获得超收益。但是市场是不是这样呢,市场有可能不是这样的。市场怎么做呢?大家很多人可能每天盯着K线搜集公司的基本信息,然后做宏观研究看年报,来发现被低估了的股票。为什么会有刚才的市场假说呢?这个其实就是理论模型和现实的区别。
虽然刚才的市场有效假说变得很悲观,现在做金融研究还是用现在的模式,看K线,搜集公司资料等等,为什么?因为人是感性的,他会有自己的思维,不会完全依赖于数据考虑这个事,而且消息的话有人会获得更多的消息。虽然说消息已经很公开透明了,实际上有些人会获得更多的信息,而且大家看法是不一致的,有了不一致的看法就会有交易。我们会看到股价有时候被炒的很高,这代表股价其实是被过渡波动的,它应该会回归。
下面介绍一个A股案例,这是招商银行的图,招商银行也是从2011年开始,我们看到招商银行到2015年大跌,跟格力一样,到2016年到现在又涨一波,这个涨的确实蛮快的,招商银行市值已经变得非常大了。我们可以看到招商银行每年都有定期分红,2016年7月13号分的,今年是7月14号分的,去年分的股利1.69/股,今年分的是1.74/股,没有都是连续的数据。对招商银行可以非常好的作为我们的案例,比如我们从万德还是哪儿下载一个数据,假设以2016年7月13号作为我们一个基础,股利像在1.69,除权那天一收盘价是17.05,增长率是2016-2015再除2015年的增长是0.07。这样就可以算出2017年的股价。假设2017年也是以除权那天的收盘价算的,如果我们2016年去买,可以获得收益率是29%,就是2016月7月13号买招商银行,到2017年7月14号收益率是29%。同时可以算2017年的数据推2018年的收益率是多少。这样截止到收盘价是7月20号的,这个收盘价是24.85,假设到2018年7月14号的时候收盘价还是24.85的话,这时候会获得20%的收益率。也就是说,这个价格可能现在已经到了,就是如果获得20%是我们的预期收益率,这个价值已经满足你了。把刚才算的合并到这个报表里可以这么看,这个报表包括股利收盘价,增长率,和我们的预测。
接下来我们可以用程序实现,比如要做刚才的事,要重现的话需要三个数据,一个是招商银行股票数据,一个是招商银行的分红数据,第三个是指数的数据,比如以沪深300为指数,这是股价的数据,包括收盘价和除权后的收盘价,还有分红的数据,包括每年的分红数据,我们拿分红数据就可以建模。建模需要算一些指标,这个指标就是刚才说的,算完这些指标还需要算出必要收益率。也就是我们拿实际数据,假如无风险收益率,这边是3.8%。出沪深300从去年7月13号到今年7月14号的沪深300收益率是12%。我们查一下招商银行的beta是0.55。这个时候会算到,我们假设就做我们必要收益率,其实是8%是我们的一个必要收益率。假设我们买招商银行的获得收益率是多少呢?我们会把它变成一个表格去算,这样就会算出很多列来。我们分别看一下数据的集是什么样,一个是沪深300数据,一个是股票的数据,这个是招商银行的数据,这个是分红的数据,我们会合并到就是计算数据图,这个包括了日期,除权日期,税后分红,分红增长率,还有实际的收益率,同时我们基于资本变量算出必要收益率。这个K就是必要收益率,是0.08。我们获得必要收益率后我们对下一年进行预测。比如说我们下一年的股利,这样我们就得到后面的这些,它的下一年的股利,这是2016年预测2017年的股利。所以最后会得出这样的表,通过这个表来观察到底这些股票是,最后我们会算出基于2016年的数据算出这个股票的价值是多少。这个价值对于2017年来说内在价值是23.05,但是实际上它的收盘价是20.13,这个时候有偏差,代表内在价值是高于股价的,代表这个股价估多了。我们选四年看招商银行的股票哪些被低估了,我们看到四年都被低估了。对于2016年-2017年的收益率这个是非常高的。
结论:寻找被低估的证券,即使极小的价格也可以让金融分析师获利,获利他就会有动力做这个事,然后把内在价值和股票去让它有价值。当你做这个事发现这个机会,就可以自己抓住这个机会赚钱。我觉得R语言是一个非常好的工具,我也在持盘中大量用R语言建模,有R的极客理想系列,现在写了三本书,最后一本是收官之作。最后一本应该在下个月会出版,如果大家对R语言图书感兴趣咱们后面可以继续交流。谢谢大家。
主持人:谢谢。这两年股票是很多人关心的事情,相信在座的各位肯定也有很多有去做股票的,因为时间的关系咱们现在可以有一个提问的机会。
提问:张先生,你好。我感觉这是金融知识入门一个很好的讲座。我是在大学学金融的,你讲的是一些基本的东西,但是我想就几个观点的点提问。你的假设用RN和RF,就是市场风险补偿之类的,我觉得那是一个非常关键的点,得到这几个数字可以用各种方法,因为数据的连续性像三年还是五年是很有考究的,我想知道怎么用这个做决策?
张丹:因为今天是一个分享,所以这个数据其实没有那么讲究,我只是从一些大家的认知,包括最近的认知去拿到的,并没有做深究。但是实在去做的时候,像您所说数据都是很讲究的,这个数据是来自什么地方,包括招商银行的beta,我是从万德抓出它做平均的,如果自己做beta并不是0.55这个值。每年的必要收益率,我这次算的是2016年7月13号到2017年7月14号算的,如果按照这样算法,每只股票分红时间不一样的,所以每只股票分红必要收益率是不一样的,必须分开算。因为今天是分享,只是把这个知识介绍给大家。
提问:您觉得R语言有什么可以帮到的地方?
张丹:因为R语言提供了很多工具包,它跟别的不一样,像用R语言的时候会用到投资的包或者风控的包,或者计算收益率的包。如果用Python或者其他语言的话,很多算法需要了解很多细节,但是用R语言,把原语言看明白之后我发现这个参数很全,语言怎么控制,我可以用R语言非常快的构建一个模型。像今天我跟大家讲的模型,可能完整写下来才30行,用其他语言做的至少几百行。
提问:您的意思是?
张丹:我是说大家用的语言不一样,但是R语言提供是这个行业知识的包,就是这个行业有什么包,R语言是把这些知识集中在一起。而Python是更多的第三方的支持,比如如何做一个连接数据库,如何做分布式,所以它更多的提供是IT技术角度来讲。而R语言可能更多的是跟某个行业知识相关的包。
主持人:谢谢。下面有请天云大数据CEO雷涛老师与大家分享Fintech实践:从BI到AI的演进路径。
雷涛:大家好。其实AI不是今天才出来的,在金融也用了很多数据挖掘,还SaaS等去做。今天的机器学习和昨天发生了很大的变化,我们如何规模化的将机器学习应用到银行,无论是风险,定价,反欺诈。这是上一周的财报一下子把亚马逊CEO推到风口浪尖了。他在年度股东会上汇报的说明书里提了一句话,我们看到这句话标志AI阶段性变化。第一个阶段,是人类将经验交给机器自动化实施。交给决策引擎就是JAVA的一套东西,自动化配置可以让机器自动化执行你从数据里挖掘出来的策略。这个经验可以拍脑袋想出来的,也可以是小数据挖掘出来的,它也比较静态,一个模型往往上线一年不会有太多的变化,是基于某个历史之前的数据挖掘出来的。今天我们会发现机器学习开始允许让我们难以精确描述规则的边界之内去完成。这是什么概念?实际上今天的机器学习因为算法和数据的规模带来一个质的提升,一个新的台阶爬上来之后,它可以完成更多我们基于答案的学习。就是人类将答案交给机器,就是当我们没有明确标准的前提下同样可以完成这个实施。在这个阶段不能回避的,第一个,我们拿什么交付给机器,这些答案是什么,这与我们传统学习发生了根本性的变化。这是我们讲的离线抽样对在线全量。像发卡是在移动端,对顾客的响应是即时即刻的。数据的鲜活和持续性最银行整个体系带来根本性的变化。第二个问题,计算能力。有时候我们常常用抽样的方法算。当我们能够有一个全局的建模方法,在线去做数据处理的时候,这样就可以用全量的数据做一些特征的表达。
这是一个项目,这个典型的就是我们在一个银行里把一个一个孤立模型,我们怎么串接,利用数据一致性做了一个平台。这个项目事实上满足的需求,就是我们把模型与模型之间的连接通过数据动态的串起来。像它每天会跑出一百多万的卡片,第二个月还会翻。这每天的卡片数据只是每天生产流程,流程化处理,有不同节点的催收。现在把这些数据在流程里被我们标出来是哪些数据了,我们可以把在线的一百多万张卡片同样跑原来的模型去算权重指标,像区域、学历等明确指标来评估。就是利用这些违约数据的答案来对审批端进行有效的调整,对它的模型进行评估。看到这张图很简单,其实它涉及到在线交易平台的系统。
后面我们会讲它在AI平台里有一个新的升维过程,和新的怎么用到高尖的算法,像深度学习等等怎么来使用。它就是将风险在前在中在后这三个风险贯穿在一起。
第二个概念,静态个体对动态关联。这个时候我们提出一个架构,原来我们数据管理组织方式是在低维的,比如five低维的,很多时候这种手段是不足以表达的。像我们给人民银行做的一个担保系统,在多度的情况下很难被量化,虽然可以索引到。所以我们会考虑用一种新的方法来重新表达数据。这个向量的表达数据有很多算法可以引用,但是在基础结构很少,以前没有用这个来做。所以我们也推出了新的方法,也做了一些案例。像这是九鼎的借贷保,怎么解决熟人与熟人的连接我们量化出来的风险圈。像做白条业务的时候,你没有还钱,换了一张信用卡,重新进来的时候我怎么知道是你,用这种交叉的大概十几亿节点连接起来,从全局去看个体。这个案例不光在风险度量上,在营销上也会充分反馈。这两张图分别反映了我们两个项目的事实。这个网络就是周期太快,就是我怎么传播过程,这是C2C的传播过程,在这个过程我们要对答案激励。当资金没有到之前图是这样的,可以看到传播过程都是单点的,每一个种子节点发送以后给周边的群体后,他在朋友圈传播以后基本就结束了。这是一个网络。另外一个网络可以看到,这是一个个人的网络,这个人通过他传播以后,他像菊花一样不断的打开,因为每一个节点在重新激励,这个激励的成本其实很少的,只有一两块钱的小的红包,但是小的红包可以促发这个达人继续扩大他的营销网络。所以整个营销行为的跟踪和度量可以通过这个复杂网络实现。
第三个观点,统计评分对机器学习。传统用SaaS的时候多数的算法还是基于统计类的多,学习类的少。在学习类的今天,跟传统的学习方法上有哪些变化,我讲一下我们现在看到的一些变化。因为有数据的变化,我们表达出现了一个很大的变化,我举一个很直观的例子,像深度学习的爆发,在几轮大赛上大家都看到深度学习很强的爆发。之前爆发的是一些特殊算法,这个特殊算法需要人强化经验抽象出去。包括在金融领域也是一样。在金融复杂的现象其实用人抽象特征的方法越来越受到挑战。这是一个例子,反欺诈,反欺诈贷中还比较好,因为贷中有大量线上行为已经暴露出来了,你有一个长项的风险暴露期。但是在申请期间是很有挑战的,因为这期间只有填申请包这么一个有限的信息,这个时候怎么表达信息,这么有限的时间内多数的方法是靠交叉验证,通过一些外部数据,或者通过一些黑名单来做,这个的覆盖率很低。所以这种环境下我们怎么把这个过程中来充分的表达出来。我们就使用了一些新的方法,像我们会升维,我们把有限的数据用刚才关联的方法投到全球的网络,这个申请的经验表我们会把它之间的关联关系捕捉了,这种捕捉对极端犯罪非常有效。像广东有一个集团经常开着车到一个村子以招工的名义收身份证。所以发现审证件的时候,它都是真实的,真实电话,真实地址,真实的身份证号码。这种特征在一个网络环境里会暴露出来,你身边有多少片,离一片有多远,做一些升维手段后会拿到更多的社交属性。这个社交属性不是微博,而是来自身边的社交属性。这个社交属性往往在不太均衡的前提下,什么是不太均衡?像每天申请信用卡只有几百个骗子,怎么平衡,它在后台强化,可以看到最后的表达效果,像随机森林,深度学习一些不同的变化。通过这种方式我们在传统金融属性之外我们获得了一些升维的数据,然后放到深度学习网络里可以带来2-3倍识别欺诈率的提升,而且是有进展的提升。
我们可以看到一个变化,就是新的算法带来对弱特征的充分表达。这个并不是通过升维,通过引入更多的参数而获取的,而是我们通过只是使用了简单、重复的大量的数据,我们并没有说把维度扩展。这种表达给了我们一个坐标系,让很难用经验和语言描述的规则能够定量化。就像下围棋,怎么描述大局观,什么是棋风,这种可以反复迅速量化在节点上。这种思路和方法也成功的落地到金融上,尤其反欺诈,这个是最有效果的,我们在实践中看到。所以它怎么适应一些动态变化,就是靠数据持续的供应。
现在在我们引入新的算法平台上有一些变化,这些变化最大的差异性举个例子,实际上开始我们对数据和模型的角色发生变化了,原来我们截图的时候发现传统做机器学习调参是最重要的动作,和评估某个核心的算法是核心动作,就是拿一个数据做一个假设,然后去求导它,或者用优化参数,最后得到一个上线的模型,然后结束了。它没有一个数据反馈模型。同时数据模型 本身价值,我们顶多看一下分布,然后来选择一些方法。但是我们在实践中当我们把AI平台交给客户的时候我们看到差异性,客户会对一个分类问题,会把分类算法在平台上涉及的算法都快速识别一遍,从随机森林到深度学习等都会尝试一遍,最后比较AUC的效果。所以第二轮版本干脆把用户做的也做了一个算法评估的平台,再第二期版本,直接把这些算法跑完以后,然后把评估方法给你对比出来了。这意味着什么呢?意味着我们开始重新思考数据对于模型的价值了。事实上我们用数据不是来调优参数的,而是用数据选择算法发现,在这个选择之下我们开始考虑一个更基础的问题,就是ABC,数据科学,数据,算例,三者有效结合才是快速有效的机器算法。这三者如何有效融合?我们从2015年不断研发,最后在2016年交付了一个平台型产品,这个平台就是把算例,在此之上我们又用把主流算法包重构,算法就是让业务人员能够快速使用平台的能力。这种平台能力有提供了几种:第一,FreeCoding,这种方法能够通过配置的方式,像刚才讲的,只需要选择数据的木百在哪里,技术函数是什么等等,定义下来这些之后就可以在生产环境下在线建立一个。当然不同的算法也有很多参数,有几百个参数供你调优,如果你会就调;不会的话可以在社区讨论。所以这大大降低的应用科学的门槛。另一边就是代码,通过REST接口整合,订阅算法包和数据分析模板,面向高阶用户,自主编写Spark,Scala,R,Python代码。我们现在R放弃掉了,就像刚才老师讲的它更偏向业务,在IT上太薄弱了,因为我们是并行化平台,所以现在开始对R放弃了。现在主要聚焦在Scala和Python来推业务。
我们看到推动新技术很困难,在窄的应用环境很容易取数据,调优方法。但是现在看到越来越多的场景,现在通用的机器学习能力开始渐渐的被大家所接受了。因为大量的数据在流程里产生,大量的答案有监督的训练的前提被我们发现,在这种方式之下怎么把通用的机器学习能力快速的推到行业,推到市场。具体的方法我们不再依赖少数的数,我们能不能像青鸟一样在上个十五年培养JAVA的方式培养AI的人工智能的平台。我自己的职业感悟,我画的这个图就是十五年前的事情,2002年我们自己在推OTA业务,当时服务,OTA就是移动互联网前身的一个小的应用。大家有印象的话还能记住那回儿手机里有俄罗斯方块。十五年前出现这些游戏很困难的,当时只有摩托罗拉和诺基亚开放这样的游戏。能够开发这个游戏其实难度在于你需要从底层的数据,从底层的硬件能够一直写到屏幕适配。所以刚才讲的肯定是大公司才能做的事。四年以后有人开发了安卓平台,一下把这个做起来了。一个大学生团队就能写出来,这么一个简单的方法带来了十五年移动互联网。在人工智能下一个十五年如何像安卓一样,能够将机器学习普适给行业的使用方法。去年推了很多,去年四月份亚马逊的产品,还有FB的相应一系列的AI PaaS化做出来了,就是提供通用性的机器学习平台。我给大家汇报的就是这些内容,其实我们也是看,因为这实际上是今天的题目,就是谈AI,这么大一个话题,实际上我们不希望探讨做AI就是那几位。德勤的报告给了一个很好的数据,这些少数人斯坦福等等毕业的人才98%都被FB囊括了,未来我想当这个能力释放给更多人群的时候就不是象牙塔里,而是能规模化,程序化和数据化,已经规模和成熟的企业,金融是一个,我们现在在Fintech刚刚起步,因为金融信息化程度比较高,未来我相信会有更多,像物联网一些数据的产生,都会到数据科学的应用里来。更多时候我期待大家从会场走出去后,放弃规则和经验,我们尝试从数据里,利用新的工具找到下一个更大的机遇爆发点。谢谢大家。
主持人:谢谢。下面有请北京赛智时代信息技术咨询有限公司CEO赵刚老师为我们分享。
赵刚:非常感谢CDA给我这个机会来交流,我们最近做的一些事情。我是来自一家我自己的公司,我们主要做的是TMT产业的一些产业研究,战略咨询。在做咨询的过程中,我们也一直在研究各个产业,包括金融机构,包括政府,在研究一些前沿产业,比如每年我们也发布人工智能,区块链,大数据,金融科技等各类的研究报告。在过程中我们希望说随着我们自身的研究的进展,我们希望有一部分能够通过数据的积累,能够逐步取代一部分以往咨询师、分析师手中的一部分工作,这部分工作也许能通过数据服务,让咨询师解放出来,能更多的和机器数据结合的更多的策略性的服务。所以这个过程中我们在今年上半年推出了基于TMT产业双创企业的数据分析服务,作为第三方数据服务推给政府客户,金融客户。
我今天利用这个时间,一方面是来向各位数据分析师学习,因为我们是做产业分析的,虽然也有关于数据分析的内容,但是过去工作更多是策略方面的;一方面是在我们享受数据分析的时候我们大概思考的过程,以及这个过程中怎么建立起平台,怎么采集数据,怎么建立模型,最后接下来服务怎么提供出来,我们有哪些困惑,希望跟各位交流,希望更多的大家感兴趣于数据分析做创业,做服务的这样一些数据分析师进行深入的交流。
首先,我们在做这件事情的时候我们也看,说我们现有的资源,我们的数据能不能服务到更大的市场领域来看。首先看还是我们在金融领域,我们更多的关注于在金融领域,在投资领域的数据分析。大家都知道的在二级市场,像万德这样的数据服务商有很好的服务。我们选择了一个可能的市场,就是在创新创业的市场,它可能对应的是我们一些天使投资人,对风险投资,新三板,创业板,甚至是一些互联网金融的众筹、金融等等这样的机构。在这个市场上有没有市场机会呢,首先看一个市场,应该来说通过近几年来看,应该说创新创业市场的机会是日益显现持续的。我们看这几年的数据,随着国家双创意见的发布,在2015和2017年都有两个意见,包括克强总理走到哪里口头上说的最多的还是双创。在这个过程中我们在2016年就有7200家众创空间,2017年上半年数据,新登记市场有887万户,现在市场达到7千万户,所以可以看到市场是有潜力的。这个过程中因为金融是整个虚拟经济的血脉,对金融来说有没有这样的对实体的,对创新创业的支撑?我们看到说其实在整个金融领域,普惠金融是未来一个重要发展的引擎。普惠金融能让金融服务到各方面,包括老人、小孩儿和扶贫对象。但是从普惠金融还是希望服务到更多的中小微企业。现在金融最大的问题是金融是嫌贫爱富的,更多看中的是大企业,给它贷款,对中小微企业是缺乏有效的贷款和服务方式的。国家在推行双创过程中普惠现在金融也是未来金融的一个基石,按照未来金融发展的规划,也提到了让重点服务对象及时获取价格合理,方便便捷的金融服务。我们看这样的数据服务将来服务的客户对象是谁呢?我们分析在普惠金融发展过程中,究竟有哪些新的生态会出来,究竟有哪些针对中小企业,中小创业公司的新的服务方式和产品出现呢,它们在服务中关注中小企业的什么数据和信息呢,在这个过程中我有什么样的风险防范体系建设,这实际上就是我们数据服务所带来的市场客户。我未来的客户定位在科技银行和小微银行,创业板、新三板、债券市场的分析,特别是新三板,对天使投资、创业投资直接融资方式的有效支持,我能不能弥补这块空白来推动我的服务。这些东西可能是我设计数据服务产品的时候我针对的客户以及数据服务过程中所能够提供的这样的一些最根本的的买单对象就是他们。所以我们在这个过程进一步分析看,说数据分析可能就是我服务好,做好普惠金融。我们能不能针对这样的服务研究,我怎么能够做到让我的服务做到帮助这些针对中小微企业的金融机构,能够给他们提供,比如帮它找好什么样的方向,告诉它什么样的方向才是最好的投资方向,告诉它在这一堆中小企业中,可能筛选出来的中小企业是最具备投资价值的,告诉他在这个过程中能提供什么样的产品和服务,怎么样才能满足这些中小企业的,让它取得更好的成功,也保证它取得成功,也代表着你投资的成功。最后就是说怎么能够防范这些中小企业的信用,所以中小企业的信用评估也是重要的一方面。
所以我们数据模型建立过程中会围绕这些方向,比如整个的对产业趋势的判断,我怎么分析各个产业趋势,我怎么找到每个产业趋势项目的投资价值,它的模型该怎么建设,以及这些项目中它的每家企业项目的风险评估模型是怎么建立的,从而建立起来对于整个金融的服务的方式。
我们说经过几个月,我们原来是咨询公司去做具体分析,这也是我们的一个突破,但是这个过程中我们逐步建立起来,我们叫Innov100,就是创新一百的数据分析平台,希望从这个过程中,从产业分析入手,逐步纳入投资分析,纳入信用分析,纳入它的科技能力评估分析,逐步建立起来对整个TMT产业创新数据分析平台。建立这个平台第一步解决的就是数据来源的问题。因为我们现在分析的对象就是中小企业,所以现在无论从天眼还是哪儿的数据库,建立起一个工商数据库,这个数据库已经建起来,大概有七千万的数据,而且跟大的机构之间,我们建立了很好的接口,能保证数据及时的更新。所以在什么时候第一时间注册了一家企业,我也会在我的平台上第一时间发现这家企业。这家企业的一些基本工商属性我是能够通过这样的数据库建起来,所以这是我们的基础数据库。在这个基础上我进一步把这个产业属性分析,我更关注创新创业TMT企业,我们按照这个类似划分,大概有50万的企业规模。进一步在这个企业规模下我的人工和数据分析结合起来的两部分,重点分析的是在这个过程中最具创新价值的50万企业。所以对整个数据的维度也是不一样的。在这个过程中我们建立了所谓的一些具体的产品和服务,包括数据的雷达,就是精准定位赛道项目,包括我们数据洞察,包括对每个企业数据进行分析这样的平台。这些数据分析的维度刚才我们讲到了,主要还是围绕着用户需求导向,从业务的角度分析看客户需要什么样的数据,我们在线免费提供给分析数据图,同时也有针对客户专门制定了一些数据分析模型的方法。在这个基础上我们希望逐步延伸出来智能报告的,就是结合我们以往的规则经验,以及基于一些自然语言理解方面的技术,我们能够自动生成一些过去分析师来完成的报告。进一步我们也在研究基于人工智能和我们咨询师经验组合的智能的,我们叫创新大师投资顾问的投研,从而形成我们整个平台的价值。
构建的过程刚才也讲了,一方面我们还是按照整个的TMT前沿产业进行产业分类,在现在我们26个一级产业,600多个三级细分产业,每个细分产业重点吸收一下刚才讲的五万家的分析。在这个数据库基础上基于我们以往产业数据分析的模型,以及我们现在在数据分析本身算法上提供的一些模型来进行相关的产业数据分析,当然这个还是刚才讲的业务导向,在这个基础上我们进行运营场景和专题的分析。把这个分析的数据、产品、模型和服务我们还是以第三方商业服务的方式提供给政府,比如现在有些像政府的在TMT产业创新方面的监测,比如给金融机构提供的关于中小微企业的商业信用和产业投资的新的专项的定制服务,来满足现有的一些市场对我们的数据分析的要求。
这是我们一些平台的界面,我简单的展现一下,像我们的进行时就是关注,像目前新的投资项目涌现出来,它们投资的主要对象,像活跃的投资机构,活跃的投资区域,这是和政府合作的要有一些关于区域创新指数的研究,包括在每个项目中进行项目筛选,项目结果展现,这是按照时间维度,我们叫项目进行时。也有关于整个项目的所谓的我们说的创业黑马,等等一些具体项目,我们可以进行展示。也有我们所谓的数据雷达,就是我们按照基本的还是,因为有些方面我们非常擅长的一点,我们一直在做产业研究,对产业的行业属性是比较清楚的,所以这种能力把它变成数据模型所具备的能力,我们逐步构建起一个对于这些将近几十万家企业的数据我们能够自动的进行产业的筛选和分类。这里我们有相关产业数据库,投融资数据库,创始人数据库,现在正在构建科技,就是一个创业项目科技能力的数据库。通过这些数据库的组合和筛选,我们能够使得我们服务对象能够快速的找到你所需要的项目和你所需要的企业。
这是我们一些基本的分析,目前来说我们提供的分析还是基于我们的数据库,基于我们一些第三方的数据分析的软件,我们来构建起来一些基本的数据分析的模型。比如说寻找赛道的,比如说每个时间段不同赛道的比较,从不同的角度来对这些项目进行不同维度的,所BI也好,说是数据分析也好,我们用一种可视化的方法提供给我们的客户,让他对整个产业的发展有更直观的判断。比如说这是一创始人的分析,对每个创始人有创始人的数据库,你的创始人,你以往的公司,你以往的院校,你关注的产业,哪些投资机构投资了你,整个创始人科技能力等等,我们会构建起一个知识图谱,来分析每个项目之间相互的关系,找出这个创始人,这个人可能是阿里系,可能是清华大学毕业的,等等的,把这些因素组合起来,来去做一个现在相关的分析。包括对每个项目,其实我们在逐步构建起说,对你的项目投资价值而言究竟是哪些因素能够更使得你这个项目成功,是风险投资更能影响你项目成功,还是项目创始团队,整个团队的能力,还是你在整个资产的状况,技术状况,还是整个你所从事的赛道的政策和整个行业发展趋势,还是你所处于的区域的影响因素。通过这种不同影响因素对创业项目的判断,从而形成我们对创业项目的价值分析和判断。这是我们关键核心的一个模型,这也是我们整个服务的非常基础性的一个模型。
当然我们也去探索商业模式,这个过程中我们大部分还是服务是免费的。登录我们的项目注册用户以后,就能获得一些相关的信息。当然我们针对行业用户有一些深度的东西,在这个过程中我们有会员制的,享受更深度数据分析的一些报告,一些更深度的数据。包括一些定制化的,我们还根据你的需求,自动化的做一些定制的报告,这是我刚才讲的自动生成的报告,很快捷的生成对一个项目的判断,还有一些增值服务,从而构建起,就是我们的特点还是基于我们以往咨询的经验结合我们数据分析的服务,共同给客户提供更加完整快捷,更加清晰的数据解决方案。
刚才讲的数据库有七千万的工商企业的数据,在这里有50万的TMT行业数据,还有5万多详细的创业项目的数据,而这个数据还在不断增长。大家知道我们很多数据还是网上爬的,这些数据要放到数据库,但是我们同时希望建立起包括卡夫卡这样非结构化的数据,特别是我们跟一些合作伙伴共同建立的,对于这个创业项目创始人的微信、微博,包括一些新媒体方面的数据的采集和分析,共同使这个数据库越做越大,我们对整个创新型企业项目掌握的更加丰富。
现在推进的一个项目是Innov100的线上服务,还有就是在我们专业的,精准的看到,特别是我们认为在五万到十万加创新创业企业中更大维数据的采集,包括大数据分析,包括业务导向的模型,以及在人工智能等领域方面的算法应用,当然我们现在关注的数据还是比较低频的一些数据,因为我们整个阶段是比较早期的,当然我们跟更多的,跟后期的一些数据的结合,在这个过程中我们也会逐步的加大对人工智能技术方面在我们整个数据分析中的应用。这就是我们一个大概的情况。
通过简单的介绍我就想,其实我们过去是一家咨询公司,咨询公司今天想去做数据分析的服务,讲了一下这个大概的过程,我们分析行业趋势,分析整个市场,谁是我们的客户,分析最终我们的产品和服务是什么样,可能未必真正说用了多少我们说的各类的算法,但是我们首先解决的是客户眼前最迫切的一些需求,在逐步解决更多需求的时候我们会引入更多数据分析的技术,包括人工智能技术来解决客户实际的分析问题,最终把我们平台打造成为一个非常专业的,科技含量非常高的第三方的数据分析服务。也希望借助这个场合希望更多的数据分析师加入我们团队,共同和我们一起来对产业创新数据服务进行更好的发展。谢谢各位。