数据分析师支招:大数据背景下金融产品的购买概率预测-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 期刊>>

期刊库

>>

数据分析师支招:大数据背景下金融产品的购买概率预测

数据分析师支招:大数据背景下金融产品的购买概率预测

发布:widen我的世界 | 分类:期刊库

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

数据分析师支招:大数据背景下金融产品的购买概率预测当前社会经历的过程就是数据化的过程,并且衣食住行都在逐步数据化。服装品牌公司为了描述自己的服装而花费巨大,设计师、模特、灯光、摄影、后期处理、文案表述 ...
扫码加入财会交流群


数据分析师支招:大数据背景下金融产品的购买概率预测


当前社会经历的过程就是数据化的过程,并且衣食住行都在逐步数据化。服装品牌公司为了描述自己的服装而花费巨大,设计师、模特、灯光、摄影、后期处理、文案表述、数据库、反馈下信息等等。人们出行需要依赖数据表达的地图,寻找餐馆银行需要依靠数据建立的地图模型。公司决定策略需要详尽的市场描述,收集巨量的数据模拟的模型。借助于物联网以及个人设备;数据已经成为一种常态出现在生活中,或许很多人没意识到而已。而意识到的人就在努力掘金。


本文讨论用逻辑回归模型预测在金融市场情景下客户对金融产品的购买概率,以股票购买持仓概率作为研究对象。并探讨了TB级百万特征金融数据处理方法。

模型

基本假设:客户每日的持仓,是基于当时金融市场情景以及股票属性作出决策的独立事件。

该逻辑回归Logistic Regression模型简单描述如下:

客户购买持仓股票概率是指客户在指定日期购买持有指定股票的概率。表述如下:

http://www.36dsj.com/wp-content/uploads/2016/02/112.png

基础数据

请各位不要问我数据来源:)

1 客户数据

  • 基本特征:
  • 客户交易流水,可提取客户历史易特征。
  • 客户交易系统操作记录,可提取客户交易系统操作特征.
  • 外部客户数据,包括客户画像其他属性:信用属性,消费属性,兴趣爱好,社交信息等,百度的标签体系可为每个人打上24大类,268小类,几千个标签。

下表为客户特征:

http://www.36dsj.com/wp-content/uploads/2016/02/42.png

2 股票数据

Wind等数据提供商提供的股票数据包括:基本信息,股本信息,财务,薪酬,关注度,行情,技术指标等。
新闻信息:目前Wind等数据提供商已将新闻主题词提取并关联相关股票,还给出了正负效应。

3 市场数据

Wind等数据提供商提供的市场数据包括:利率,汇率,财政,价格指数,国内外贸易,景气指数以及新闻等。

4 客户购买记录

客户过去一年每日持仓记录。

数据处理与模型实施

数据量预估

  • 样本数:

假设客户数为1000万,目前A股有2800多股票,取过去1年购买记录为样例,大约是250天,那么产生的样本数为大约7万亿,但只需记录持仓信息,假设人均10只股票,那么需存储的记录大约为250亿条。负样本不用存储,在模型计算时产生。

  • 特征数:

客户特征关联股票特征再关联市场特征,将产生百万维以上特征,特征稀疏。

250亿条百万维稀疏矩阵,大约是几十TB。估计需50台普通PC服务器的Hadoop/Spark集群,可满足数据处理和特征提取。对TB级百万特征逻辑回归模型运算,我尝试过国内厂商基于Spark的平台,可以支持。另一条路是针对这个大规模机器学习的具体问题定制优化。我也试用过国内一家新兴大数据公司第四范式公司的数据建模产品,他们对高维稀疏矩阵做了深度定制与优化,仅在10台普通PC服务器就可以处理该数据量级别逻辑回归运算。

金融特征提取

由于我们将每日交易行为作为独立事件。既假设股票特征,市场特征在样本中都是独立的,而我们在做交易决定时可能更关心特征在指定区间内的变化如股票中技术指标等。所以市场数据以及其他股票数据也需要将变化趋势转换为特征,如变化率,以及以涨跌标记变化趋势,如+代表涨-代表跌,++–表示过去四个周期的一种变化趋势。

由于二级市场企业公告的时间周期为季,宏观市场指标有月也有年,而新闻的时间频率可以为秒,并且客户特征也是随着时间变化的。将不同时间周期的数据统一归结为按日期的特征必须处理有大量数据。从而可以保证,样本是指定客户在其当时的特征下,根据当时的市场特征以及股票特征做出的购买持仓决定。

模型效果评估

这是我很迷惑的部分,这么高维度的特征数据,如何根据需求判断不同参数的结果优劣。一般评估模型效果都是用AUC (Area under the Curve of ROC) ROC曲线下面积, ROC为接收者操作特征曲线(Receiver Operating Characteristic Curve)。

而我们实际会选择排序列表作为推荐名单,这时,阀值Threshold的选取就很重要。一些商业的产品会使用其他参数来评估。每当看到AUC莫名的增长,总是让人喜悦的,虽然有时会发现是由于数据处理错误导致的:

实践中,我们完全可以用模型预测过去一段时期的购买持仓,并和实际交易数据对比。在类似案例中的测试结果表明,相对于简单规则和随机预测,该模型的准确率可提供10倍以上。这个结果也是可以预期的,在高维数据,不断迭代局部优化,可以捕抓一些长尾特征。如下图,可以捕捉那些少数群体特征。

http://www.36dsj.com/wp-content/uploads/2016/02/32.png

总结

本文讨论用逻辑回归模型预测在金融市场情景下客户对指定金融产品的购买概率。认为可以假设客户每日的持仓,是基于当时金融市场情景以及金融产品属性作出决策的独立事件。从而可以在客户特征,金融产品特征以及市场特征三个方面关联作为样本数据,并以当日购买持仓为标记使用逻辑回归做预测。另外本文还探讨了TB级百万特征金融数据处理的一些方法与经验。

可能的应用场景,该模型方法可应用于金融产品推荐。

也许有人会疑惑该模型的商业价值,但难道您就没看到该模型是在沿着行为金融学基本问题“基于有限理性的金融资产预期定价问题” [1]向着“看不见的手”发起挑战吗?
假设我们可以将人的金融需求特征完成特量化,又将股票特征量化,结合当时市场场景,自动撮合交易。想象下,多么美好,再也没有泡沫与股灾。
在Matrix(黑客帝国中的主机)中一切皆有定数。

以上言论纯属YY,人的行为当然不能完全量化:)


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-4473346-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。