2316 8

[行业动态] 数据分析师支招:大数据背景下金融产品的购买概率预测 [推广有奖]

企业贵宾

已卖:160份资源

巨擘

0%

还不是VIP/贵宾

-

威望
4
论坛币
624047 个
通用积分
180.4857
学术水平
918 点
热心指数
987 点
信用等级
841 点
经验
399143 点
帖子
9786
精华
48
在线时间
17322 小时
注册时间
2014-8-19
最后登录
2022-11-2

楼主
widen我的世界 学生认证  发表于 2016-3-16 16:40:17 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

数据分析师支招:大数据背景下金融产品的购买概率预测


当前社会经历的过程就是数据化的过程,并且衣食住行都在逐步数据化。服装品牌公司为了描述自己的服装而花费巨大,设计师、模特、灯光、摄影、后期处理、文案表述、数据库、反馈下信息等等。人们出行需要依赖数据表达的地图,寻找餐馆银行需要依靠数据建立的地图模型。公司决定策略需要详尽的市场描述,收集巨量的数据模拟的模型。借助于物联网以及个人设备;数据已经成为一种常态出现在生活中,或许很多人没意识到而已。而意识到的人就在努力掘金。



本文讨论用逻辑回归模型预测在金融市场情景下客户对金融产品的购买概率,以股票购买持仓概率作为研究对象。并探讨了TB级百万特征金融数据处理方法。

模型

基本假设:客户每日的持仓,是基于当时金融市场情景以及股票属性作出决策的独立事件。

该逻辑回归Logistic Regression模型简单描述如下:

客户购买持仓股票概率是指客户在指定日期购买持有指定股票的概率。表述如下:

基础数据

请各位不要问我数据来源:)

1 客户数据

  • 基本特征:
  • 客户交易流水,可提取客户历史易特征。
  • 客户交易系统操作记录,可提取客户交易系统操作特征.
  • 外部客户数据,包括客户画像其他属性:信用属性,消费属性,兴趣爱好,社交信息等,百度的标签体系可为每个人打上24大类,268小类,几千个标签。

下表为客户特征:

2 股票数据

Wind等数据提供商提供的股票数据包括:基本信息,股本信息,财务,薪酬,关注度,行情,技术指标等。
新闻信息:目前Wind等数据提供商已将新闻主题词提取并关联相关股票,还给出了正负效应。

3 市场数据

Wind等数据提供商提供的市场数据包括:利率,汇率,财政,价格指数,国内外贸易,景气指数以及新闻等。

4 客户购买记录

客户过去一年每日持仓记录。

数据处理与模型实施

数据量预估

  • 样本数:

假设客户数为1000万,目前A股有2800多股票,取过去1年购买记录为样例,大约是250天,那么产生的样本数为大约7万亿,但只需记录持仓信息,假设人均10只股票,那么需存储的记录大约为250亿条。负样本不用存储,在模型计算时产生。

  • 特征数:

客户特征关联股票特征再关联市场特征,将产生百万维以上特征,特征稀疏。

250亿条百万维稀疏矩阵,大约是几十TB。估计需50台普通PC服务器的Hadoop/Spark集群,可满足数据处理和特征提取。对TB级百万特征逻辑回归模型运算,我尝试过国内厂商基于Spark的平台,可以支持。另一条路是针对这个大规模机器学习的具体问题定制优化。我也试用过国内一家新兴大数据公司第四范式公司的数据建模产品,他们对高维稀疏矩阵做了深度定制与优化,仅在10台普通PC服务器就可以处理该数据量级别逻辑回归运算。

金融特征提取

由于我们将每日交易行为作为独立事件。既假设股票特征,市场特征在样本中都是独立的,而我们在做交易决定时可能更关心特征在指定区间内的变化如股票中技术指标等。所以市场数据以及其他股票数据也需要将变化趋势转换为特征,如变化率,以及以涨跌标记变化趋势,如+代表涨-代表跌,++–表示过去四个周期的一种变化趋势。

由于二级市场企业公告的时间周期为季,宏观市场指标有月也有年,而新闻的时间频率可以为秒,并且客户特征也是随着时间变化的。将不同时间周期的数据统一归结为按日期的特征必须处理有大量数据。从而可以保证,样本是指定客户在其当时的特征下,根据当时的市场特征以及股票特征做出的购买持仓决定。

模型效果评估

这是我很迷惑的部分,这么高维度的特征数据,如何根据需求判断不同参数的结果优劣。一般评估模型效果都是用AUC (Area under the Curve of ROC) ROC曲线下面积, ROC为接收者操作特征曲线(Receiver Operating Characteristic Curve)。

而我们实际会选择排序列表作为推荐名单,这时,阀值Threshold的选取就很重要。一些商业的产品会使用其他参数来评估。每当看到AUC莫名的增长,总是让人喜悦的,虽然有时会发现是由于数据处理错误导致的:

实践中,我们完全可以用模型预测过去一段时期的购买持仓,并和实际交易数据对比。在类似案例中的测试结果表明,相对于简单规则和随机预测,该模型的准确率可提供10倍以上。这个结果也是可以预期的,在高维数据,不断迭代局部优化,可以捕抓一些长尾特征。如下图,可以捕捉那些少数群体特征。

总结

本文讨论用逻辑回归模型预测在金融市场情景下客户对指定金融产品的购买概率。认为可以假设客户每日的持仓,是基于当时金融市场情景以及金融产品属性作出决策的独立事件。从而可以在客户特征,金融产品特征以及市场特征三个方面关联作为样本数据,并以当日购买持仓为标记使用逻辑回归做预测。另外本文还探讨了TB级百万特征金融数据处理的一些方法与经验。

可能的应用场景,该模型方法可应用于金融产品推荐。

也许有人会疑惑该模型的商业价值,但难道您就没看到该模型是在沿着行为金融学基本问题“基于有限理性的金融资产预期定价问题” [1]向着“看不见的手”发起挑战吗?
假设我们可以将人的金融需求特征完成特量化,又将股票特征量化,结合当时市场场景,自动撮合交易。想象下,多么美好,再也没有泡沫与股灾。
在Matrix(黑客帝国中的主机)中一切皆有定数。

以上言论纯属YY,人的行为当然不能完全量化:)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析师 数据分析 金融产品 大数据 分析师 数据分析师 大数据背景下金融产品的购买概率预测 大数据


https://www.cda.cn/?seo-luntan
高薪就业·数据科学人才·16年教育品牌

沙发
点滴记录life 在职认证  学生认证  发表于 2016-3-16 16:41:25
大数据再厉害,在现今动荡的金融局势里,买股票基金能挣钱的不是技术高超,而是个人运气好。。。。

藤椅
保罗沃克 在职认证  发表于 2016-3-16 16:44:07
大数据可以做很多事情,唯独应付不了股市。对于现在的股市,大家都是泥菩萨过河——自身难保!!

板凳
放纵我的放纵 在职认证  发表于 2016-3-16 16:45:57
根据市场有效假说,这些信息数据都是历史已知的,无法预测未来。数据分析的魅力就在于,让看起来高大上的东西显得更加专业,但股市实在是太难对付了……

报纸
放纵我的放纵 在职认证  发表于 2016-3-16 16:46:28
很多自称很有专业学问的人士不知在股市亏了多少,很多碰碰运气的百姓却在股市中挣了不少,这说明什么,越理智越糊涂……

地板
心从未停止呼吸 在职认证  发表于 2016-3-16 16:49:46
股市的预测就像过山车,你永远不知道前方是上坡还是谷底。不过无论如何,都让你心跳飙升,无法平静!!

7
funny每一天 学生认证  发表于 2016-4-12 18:13:17
软件只是帮助我们完成任务的工具。并不是我们只要学好的软件操作就能很好地完成任务,因为与操作相比,如何解释最后的结果要重要的多。即使软件操作的再熟,如果看不懂结果,那跟不会才做没有两样。

8
聆听故事city 在职认证  发表于 2016-4-12 18:51:05
在做数据分析时,有自己的想法固然重要,但是“前车之鉴”也是非常有必要学习的,它能帮助数据分析师迅速地成长,因此,模仿是快速提高学习成果的有效方法。这里说的模仿主要是参考他人优秀的分析思路和方法,而并不是说直接“照搬”。成功的模仿需要领会他人方法精髓,理解其分析原理,透过表面达到实质。万变不离其宗,要善于将这些精华转化为自己的知识,否则,只能是“一直在模仿,从未超越过”。

9
我心孤独 在职认证  发表于 2016-4-12 19:06:02
大数据不是越大越好,大数据分析有三个原则:第一,简单,分析出来的结果必须非常非常简单,没有任何花哨的东西,任何人都能够看明白看懂。第二,迅速,分析速度越慢接受度越低,越快接受度越高。第三,规模化,希望公司内部所有的员工每一个人都能够用数据来分析帮他们做决策,很快的做决策。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-22 08:06