楼主: 时光永痕
570 0

[数据挖掘新闻] 数据科学,普通股和V&V [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

46%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据科学,普通股和V&V
金融建模人员使用诸如Fama-French,CAPM或APT之类的东西来理解该决定的全部后果。第三是讨论财务模型的建立以及股票证券财务软件的验证和确认。
博客文章的末尾是指向文章的链接,该文章既包含证明,也包括用于研究证明中分布回报的总体研究。
证明相对简单。收益是价格比率乘以数量比率的乘积。如果数量保持不变,那只是价格之比。拍卖理论为演员提供了选择出价的策略。股票在两次拍卖中出售。如果没有什么可以阻止市场处于均衡状态,那么随着时间的推移,价格应该被推向均衡状态。因为它是通过两次拍卖出售的,所以理性的行为是对您的评估价值(其期望价值)进行出价。
如果有足够的潜在投标者和卖方,那么随着参与者数量变得非常大,由于中心极限定理,价格的分布应该收敛到常态。如果没有股息或流动性成本,或者如果我们可以忽略它们或单独考虑它们,则价格将围绕当前和未来的均衡价格进行正态分布。
将误差空间中的平衡视为(0
对于那些不习惯贝叶斯测试的人,最简单的思考方法是在截断的正常或对数正态模型与截断的柯西模型下测试每个观察值。一个特定的观察更有可能来自一个或另一个分布吗?将概率分配给每笔交易。排除正常模型的可能性实质上为零。
贝叶斯概率不同于频繁p值。惯常的p值是在假设为零的情况下看到您看到的数据的概率。贝叶斯概率不假设假设为真;而是假设数据是有效的,并为每个假设为真实的情况分配一个概率。这将提供以下可能性:截断后数据正态分布,对数正态分布和柯西分布。与遵循截断柯西分布的概率相比,以正态分布分布的数据的概率小于在其前面具有八千六十万个零的概率。
这并不意味着数据遵循截断的柯西分布,尽管目视检查表明数据接近。它确实暗示正态分布的逼近度令人难以置信。对数正态被排除在外,因为它的后验没有整合到一个正态,因为似乎似然函数仅在方差无限大时才会最大化。本质上,对数实数上的均匀分布将与对数正态一样好。
为了理解结果,我创建了一个模拟了1000个样本的示例,每个样本具有一万个观测值。两者均从柯西分布中得出,并进行了简单的回归来描述一个变量与另一个变量之间的关系。
回归进行了两次。如CAPM或Fama-French这样的模型常用的方法是使用普通最小二乘法(OLS)。还创建了具有柯西似然性的贝叶斯回归,并且在给定平坦先验的情况下找到了最大事后(MAP)估计量。
从理论上讲,任何最小化平方损失函数的模型都不应收敛到正确的解决方案,无论是统计还是通过人工智能。相反,它应该缓慢地绘制出人口密度,尽管每个估计量都声称是真实的中心。平均值的采样分布与总体的采样分布相同。
添加数据不会添加信息。一百万或一千万的样本量将产生相同水平的统计能力。
模拟
为此,我使用OLS绘制了一千个点估计器,并构造了一个图,使用核密度估计来估计其形状。
贝叶斯MAP估计量的采样分布也已映射并在此处看到。
对于此样本,MAP估计器的精度是最小二乘估计器的3
## ols_beta bayes_beta   
##最小值。:-1.3213 0.9996
##第一季度:0.9969 0.9999
##中位数:1.0000 1.0000
##平均值:1.0030 1.0000
##第三季度:1.0025 1.0001
##最大值:5.8004 1.0004
OLS估计范围为7.12单位宽,而MAP估计范围为0.0008118。由于维数较低,因此未将MCMC用于贝叶斯估计。取而代之的是,创建了一个移动窗口,该窗口的设计目的是在给定的比例下找到最大值,并使窗口在该点处居中。然后将鳞片切成两半,并在该区域上放置一个细筛。然后,窗口以新的最大点为中心,缩放比例再次减半,总共进行了21个缩放比例。在估算器有偏差的情况下,可以保证偏差小于0.00000001,因此对我而言没有意义。
在总体参数的真实值为1的情况下,两个估计量的中位数都是正确的,但是巨大的噪声水平意味着OLS估计量通常相对于总体参数而言很远。
我构建了一个联合采样分布,以查看样本的质量。从密集估计量的孤岛的存在来看,虽然我们不知道现实世界是否由好样本组成,但选择的样本可能不是好样本。  
我放大是因为我担心似乎没有几率的小岛。
为了测试可能不寻常的样本的影响,我用一个不同的种子绘制了一个相同大小的新样本。
第二个样本表现较好,尽管表现不佳,以至于理性的程序员会考虑使用最小二乘。MAP相对于OLS的相对效率为366981.6。从理论上讲,MAP在OLS上的渐近相对效率是无限的。关节密度为
摘要统计是
## ols_beta bayes_beta   
##最小值:0.1906 0.9994
##第一季度:0.9972 1.0000
##中位数:1.0000 1.0000
##平均值:1.0004 1.0000
##第三季度:1.0029 1.0001
##最大值:2.2482 1.0005
一个有点相关的问题是仅给出一个样本的估计量的行为。
第二组的第一个样本使用R的LM函数得出OLS估计值,
## ##呼叫:## lm(公式= y [,1]?0 + x [,1])
## ##残留物:##   
最低1Q中位数3Q最大
-1985 -1 0 1 83433
## ##系数:##估计标准。误差t值Pr(> | t |)##
   x [,1] 1.000882 0.008043 124.4 <2e-16 *** ##-
## Signif。编码:0'***'0.001'**'0.01'*'0.05'。' 0.1''1 ## ##
残留标准误差:9999个自由度上的837 ##
多个R平方:0.6077,已调整R平方:0.6076 ##
F统计量:1.549e + 04在1和9999 DF上,p值:<2.2e-16
贝叶斯参数估计值为1.000019,β的后验密度  如下图所示。
没有计算特定的贝叶斯间隔。
尽管残差与系数近似相等,但是残差的样本标准偏差为837,但四分位间距为2.04。基于柯西分布的假设,根据一个人如何将某物归类为离群值,没有离群值或很少。根据正态分布的假设,大约有百分之二十的残差是异常值。
仅查找统计显着性不会发出警告,说明可能存在问题。
建筑模型
因此,如果不使用贝叶斯模型构建方法来遵循CAPM,APT或Fama-French之类的模型,那有什么用呢?
答案将是回到第一原则。什么因素会影响收益和规模?
最简单,最明显的方法之一就是破产的可能性,破产的定义是法院为现有股东分配的全部亏损份额。暂时忽略破产的原因,如果π(B)是破产的可能性,则要求的回报应为
dμ/dπ(B)> 0。
此外,由于伯努利试验的方差最大为百分之五十,因此比例参数的增长速度应不低于伯努利试验的标度变化。如果破产风险从百分之一增加到百分之二,人们会期望股票的规模参数上升不小于基础现金流量中风险标准偏差的增加。
作者先前针对各种基本和经济变量测试了78个破产模型。其中两个模型的后验概率约占百分之五十三和百分之四十七,而其余的七十六个模型的后验概率合计约为百分之一百二十五。
这些破产模型是高度非线性的,因此在这种狭窄情况下可能会发现高维的弯曲几何体。
要了解原因,请考虑流动资产(流动负债)的会计计量。大多数破产是由于现金危机。破产后,安然(Enron)在美国通用会计准则(GAAP)下仍然可以盈利。
但是,这种差距可能表明不同级别的破产风险不同,尤其是考虑到其他变量可能与之交互作用时。例如,一家流动资产相对于流动负债的缓冲很小的公司,可能不会具有特别高的突然破产风险。那另外两个极端呢?
为了使一家公司承受较大的负差额,其他一些公司必须承保其债务。那通常是一家银行。如果银行承保其债务,则该银行已将其损失风险判断为很小。这意味着银行对商业模式具有足够的信心,可以在没有立即偿还能力的情况下扩展信贷。此外,由于银行喜欢放置大量保护性公约,因此银行的管理层很可能会受到限制,因为他们正受到监视并被禁止这样做。
另一方面,大量的当前资源可能具有不确定的含义。其他变量将需要参考。没有人购买他们的库存吗?黑色星期五之前一个月,他们刚刚为一天的销售积累了大量库存吗?他们是否在节省现金,预计在不久的将来会很糟糕?管理层是否过于保守?
逻辑也可能因公司而异。一些经济或会计变量对公司没有意义。电力公司无法激励或实质上影响其大量需求。天气更为重要。它无法控制其收入。另一方面,珠宝商可能会通过谨慎的定价,行销和明智的信贷条款对其收入产生重大影响。收入对于珠宝商而言可能具有非常不同的含义。同样,某些产品也不取决于经济情况来确定购买数量。这样的例子包括诸如厕纸或阿司匹林的商品。模型构建应涉及思考。
想象一下两个因素,它们的预期破产率是抛物面。您的神经网络会检测这些特征到收益或决策函数上的映射吗?如果抛物面的顶部有额外的弯曲怎么办?启动验证过程的一个好方法是模拟模型可能会遇到困难的条件。
事前将映射因子映射到神经网络的决策应更多地涉及从一个几何图形映射到另一个几何图形的能力。均值方差财务模型很好,因为它们隐含着线性独立关系的相对较低维度。
替代测试模型不应不相关,因为金融变量之间具有高度相关性。而是应该对相关但不正确的几何形状进行测试。
大规模模型构建通常意味着要获取具有许多变量的大量数据并进行自动模型选择。我对此没有异议,但我确实建议两点。首先,请记住,会计和经济数据是设计上高度相关的。其次,请记住,从第一原理的角度来看,简单的线性关系可能未必具有逻辑意义,因此高度怀疑。
首先,少数变量几乎包含所有独立信息。根据项目的不同,COMPUSTAT宇宙中各个会计分录之间的Pearson相关性介于0.6到.96之间。添加变量不会增加太多信息。
对于第二种情况,对关联的简单映射及其对合并,破产,持续运营和股息的影响将很有用,而且它们如何相互影响以确定有理多项式或其他函数作为形式也将是有用的。
由于这是作为软件完成的,因此该软件应经过验证和确认(V&V)过程。
验证和确认在几个方面与软件代码的简单测试略有不同。如果我编写代码并对其进行测试,则不会自动执行验证或确认。
在理想情况下,执行V&V的人员将独立于编写代码的人和代表客户的人,尽管这是理想的选择。这是一个额外的认知步骤。验证者正在确定软件是否符合要求。简化了,解决问题的软件是否打算解决?在软件开发的历史中,已经不止一次地发生了软件的设计者和构建者对来自客户的通信的解释与客户意图不同的情况。在最好的情况下,客户和构建者之间要花费大量时间来澄清双方真正在说什么。
另一方面,验证是另一种动物。检查以确定提议的解决方案是否是对该问题的有效解决方案。在这里,金融经济学和数据科学可能会变得有些棘手。在很大程度上取决于问题的提出方式。说“我使用了经济物理学的方法来创建订单输入系统”,这并不能回答问题。回答“好吧,我对此进行了交叉验证”,也没有回答“它是否解决了实际问题”的问题。交叉验证程序本身受V&V的约束。
您是否在解决客户认为需要解决的问题,并且您的解决方案是有效的解决方案?
想象一下一个用于场内交易者的人力资源管理系统,该系统旨在确定将在场的员工。行为经济学指出,损失金钱的人的行为与最近获利的人的行为不同。目标是创建一种机制来检测哪些交易员应该坐在地板上。均值方差金融将暗示这种影响不应该存在。行为金融观察得到了文献的支持。问题是要使用什么理论,如何验证解决方案并对其进行验证。
答案完全取决于客户的需求。他们是否需要将损失的风险降至最低?最大化美元利润?最大化利润百分比?相对于其他措施产生利润?由于行为金融只是描述性的,而不是描述性的,因此替换交易者可能无法提高绩效。在考虑采用哪种机制和测量系统时,问题必须总是回到数据科学家提出的问题。
在先前的博客文章中提议的演算为数学金融增加了新的一层。其中有一种说法是,考虑到公司将继续经营并忽略股息和流动性成本,收益将收敛于截断的柯西分布。这与存在正态分布或存在对数正态分布的标准假设有很大的出入,但是在1960年代以来的文献中肯定是这样。
尽管如此,正态性或对数正态性的假设是建立在假设参数已知的模型上的。如果放弃了市场知道参数的假设,则会得出不同的结果。
现有的主要模型尚未通过验证研究。作者认为,由于在较旧的演算中必须进行假设,因此参数是已知的。放弃这一假设将产生验证问题,因为每个人都处于新的位置。建议注意。
未来职位
在我即将发表的博客文章中,我将介绍对数转换。这不是免费的午餐。我还将介绍回归的其他问题。但是,我的下一篇博文将涉及性别和股市数学。
在盲目,大规模的分析中忽视了我们正在对人类行为进行建模的事实,这存在严重的危险。不幸的是,这是一次经济讨论,因此它不会是有关性的有趣文章。性和食物作为低级玩具箱比讨论权力或金钱问题更简单。由于本身引人入胜的原因,人们花了数小时或数天来分析该挑选什么股票,而花几分钟来找出可能与谁结婚的孩子。
向经理们讲授数字方法的全部原因是要防止肠道决策。领导力不是一切,管理至关重要。
需要领导才能说服人们攀登严密防御的山峰,甚至可能导致他们死亡或肢解。没有人会用剪贴板回应一个人,让他们知道如果他或她上山,他们将在他或她的季度审查中获得3分。他们将跟随领导者至死,以捍卫自己的国家。
另一方面,领导层将无法在正确的位置准时正确地获得食物,弹药,衣物或设备。只有适当的管理和数值分析才能做到这一点。数据科学可以为管理决策提供信息,因此最好记住我们不是逻辑上的物种。
另外,在所有人争相参加Fama-French模型之前,我将对此进行辩护,希望它既可以作为警告,也可以作为深入研究其模型的理由。法玛和法国人正在对CAPM做出回应,而不是取代它。
接下来是性,数据科学和股市…
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学 普通股 FRENCH 最小二乘估计 中心极限定理

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 01:25