楼主: 能者818
850 52

[量化金融] 挑选赢家:一种数据驱动的质量评估方法 [推广有奖]

21
大多数88 在职认证  发表于 2022-6-13 23:02:14
根据这一假设,我们将成员的年龄设置为22岁加上公司成立年份减去成员获得/将获得本科学位的年份。为了了解领导力特征的影响,我们通过四舍五入到最接近整数的投资者特征来绘制公司分布图。图5所示是功能executive IPO的一个示例。从这些图表中,我们可以看到,高管IPO价值较高的公司退出率较高。退出率的巨大差异表明,以前的成功是未来成功的良好指标。3.2.1. LinkedIn的许多功能缺失数据的插补我们无法获得数据。我们仍然需要这些特征具有一些价值,以便在模型中使用生成的特征向量。为此,我们估算了缺失的值。我们将N家公司的所有M维特征向量串联起来,创建一个缺失值的M×N矩阵。为了插补这些缺失值,我们使用了一种称为软插补的矩阵补全算法,该算法通过使用核范数正则化对特征矩阵进行低阶近似来实现插补(Mazumder et al.2010)。软插补需要正则化参数和收敛阈值。为了获得正则化参数,我们将所有缺失值替换为零,然后计算得到的矩阵的奇异值。我们将正则化参数设置为该填充矩阵的最大奇异值除以100,并将收敛阈值设置为0.001。然后,我们将这些参数应用于不完整特征矩阵的软插补,以填充缺失值。该插补特征矩阵用于所有后续的模型拟合和预测任务。

22
大多数88 在职认证  发表于 2022-6-13 23:02:17
请注意,我们对所考虑的每个训练集和测试集重复此过程,以确保我们没有违反因果关系。亨特、赛尼和扎曼:获胜4。创业公司融资模型我们现在提供了一个随机模型,用于描述公司如何进入不同的融资轮,以及构建投资组合所需的相关概率计算。我们的模型通过使用布朗运动过程捕获了融资轮的时间演化。4.1. 公司价值的布朗运动模型我们假设一家公司有一个潜在的价值过程X(t),它是一个布朗运动,具有时间依赖的裂谷u(t)和扩散系数σ(t)。当公司收到第一轮融资时,潜在价值过程X(t)以0开始。我们使用的一组可能的融资轮次是R={种子,A,B,C,D,E,F,退出}。我们用指数0表示每轮融资≤ l≤ 7,l=0对应种子基金,l=1对应系列A基金等。最终级别为l=7,对应退出。对于每轮融资l,我们有一个hl级≥0,并且级别的顺序应确保-1.≤ hl。我们选择这些层的间距是线性的,但可以任意选择它们。在我们的模型中,我们让hl=l代表一些 > 0.当X(t)第一次到达HL时,公司收到l轮融资,我们将这一次表示为tl。因此,收到新一轮融资的时间是布朗运动的第一个消息时间。具有任意时变漂移和扩散项的布朗运动的首次通过时间分布很难求解。特别是,必须用适当的边界条件求解福克-普朗克方程(Molini et al.2011)。然而,当漂移与扩散之比为常数时,我们可以用适当的边界条件精确地求解福克-普朗克方程。

23
何人来此 在职认证  发表于 2022-6-13 23:02:20
因此,我们假设漂移项和扩散项的形式为u(t)=uf(t)和σ(t)=σf(t),其中u、σ和f(t)是适当选择的。在这些假设下,我们得到了以下第一次通过时间分布的标准结果。定理4.1【Molini等人(2011)】对于漂移u(t)=uf(t),扩散σ(t)=σf(t),初始值X(v)=0的布朗运动X(t),设vα=inft>v{X(t)≥α} 表示时间v后第一次通过时间到α>0的时间。然后,vα的概率密度函数(PDF)isf(v;v,u(t),σ(t),α)=σ(v)α√16πSe-(α-M) 4S(4.1)和累积分布函数(CDF)isF(v;v,u(t),σ(t),α)=ΦM-α√2秒+ 经验值MαSΦ-(M+α)√2秒. (4.2)其中M=vRvu(s)ds,s=vRvσ(s)ds,Φ(·)是标准正常CDF。亨特、赛尼和扎曼:赢得4.2分。建模漂移和扩散从第3节开始,回顾成功的公司通常需要一定的时间才能完成每一轮成功的融资,这促使这些公司在某个时间段内具有积极和恒定的漂移系数。此外,许多公司很快就成功地进入了早期融资阶段,但之后却无法退出。这促使这些公司产生一种随时间推移而减少的倾向。最后,随着时间的推移,一家尚未实现退出的公司很可能无法实现新一轮融资。这就意味着,随着时间的推移,我们的潜在价值过程移动得很小,这可以通过漂移项和扩散项向零移动来建模。为了结合这些特性,我们使用以下模型计算公司i的漂移和扩散系数:ui(t)=ui01{t≤ ν} +e-t型-ντ1{t>ν}(4.3)σi0(t)=σi01{t≤ ν} +e-t型-ντ1{t>ν}(4.4)其中ui0、σi0、ν和τ根据数据进行适当选择。

24
mingdashike22 在职认证  发表于 2022-6-13 23:02:24
在此模型下,漂移和扩散在一段时间ν内保持不变,之后它们随时间常数τ呈指数衰减。在我们的模型中,每个公司都有相同的ν和τ。然而,每家公司将有不同的裂缝术语ui0和扩散术语i0,这将由其特征决定。对于一家公司,我们定义了特征向量xi∈RM、漂移ui0和扩散σi0。我们定义了参数向量βy∈Rm对于y年。具有基准年(最早融资年)y的公司i具有ui0=βTyxi。此外,我们设置βy+1=βy+ 哪里 =[, . . . , M] 以及iis正态分布,平均值和方差为零δifor 1≤我≤M、 这种时变系数模型允许我们捕获环境中任何可能增加或减少特征重要性的动态。例如,考虑一个特征,即该公司是否在某个行业。如果该行业的市场规模发生变化,该特征的系数将随时间而变化。此外,该时变模型允许我们捕获漂移权重未来值的不确定性,我们将在第7.4节中利用漂移权重构建公司第一次通行时间的联合分布。此外,我们发现,各公司之间的融资轮次数据差异很大。例如,一些公司通常会很快实现早期融资,但最终无法实现脱欧。为了模拟这种现象,我们在模型中引入了异方差,并允许每个公司都有自己的扩散系数。我们定义了另一个参数向量γ∈RM,我们让σi0=g(γTxi)。扩散系数必须为非负。此外,我们希望它接近零,因为γTxibecomes更负,而对于正值,我们希望它接近γTxi。为此,我们将g(z)设为双曲线的正区域,在z=0且g(z)=z处具有渐近线。

25
大多数88 在职认证  发表于 2022-6-13 23:02:27
精确地说,g(z)=z+rz+!。Hunter、Saini和Zaman:Winningz对于z的大负值,该函数为零,对于z的大正值,该函数接近z,如werequire所示。我们考虑了漂移和扩散项的许多其他模型。我们发现,所提出的模型在数据拟合方面表现良好,此外,我们还发现该模型直观易懂。因此,我们将把未来的结果限制在使用此特定模型获得的结果上。4.3. 数据可能性利用我们对漂移和扩散的定义,我们现在可以确定agiven公司观察数据的可能性。对于表示法,假设我们在时间tobs观察一家公司。在此之前,它已经达到了一系列的融资回合,指数i={i,i,…iL}。与这些回合的时间相对应的随机变量是t={ti,ti,…,tiL}(我们假设i=0,并对时间进行归一化,使ti=0)。可能会丢失数据,因此各轮融资不一定是连续的。对于给定的公司c,我们使用TCF表示融资轮的次数,使用XC表示特征向量,使用CY表示基线年份。如果观察到公司c的退出,则iL=7,根据布朗运动的独立增量性质和平移不变性,可能性由P(tc,tobs,xc,hiL=7)给出|βcy,γ,δ,ν,τ)=LYl=1f(til;til-1,uc(t),σc(t),hil-hil公司-1) ,(4.5),其中方程式(4.1)中定义的fis以及方程式(4.3)和(4.4)中分别给出的uc(t)和σc(t)。如果公司在tobs之前未退出,则iL<7,并且存在一个大于或等于tobs的审查轮间时间-直到。

26
kedemingshi 在职认证  发表于 2022-6-13 23:02:30
在这种情况下,可能性由p给出(tc、tobs、xc、hiL<7|βcy,γ,δ,ν,τ)=(1-F(tobs;tiL,u(t),σ(t),))LYl=1f(til;til-1,uc(t),σc(t),hil-hil公司-1) ,(4.6),式(4.1)和(4.2)中分别定义了fand Fare。为了便于记法,将公司集设为C,并设T={tc,ic,{hij|ij公司∈ic}|c∈ C} 成为我们数据中所有公司C的时间序列信息集(资金轮次级别和达到每个级别的时间)。此外,假设X是包含数据中所有公司特征的数据矩阵。我们使用以下附加定义:CEI是我们数据中已退出的公司集合,C是我们数据中尚未退出的公司集合,β是所有βy的集合。使用此符号,我们可以写出完整的数据可能性asP(T,X |β,γ,δ,ν,τ)=Yc公司∈CeP(tc、tobs、xc、hiL=7|βcy,γ,δ,ν,τ)Yc公司∈CfP(tc、tobs、xc、hiL<7|βcy,γ,δ,ν,τ). (4.7)亨特、赛尼和扎曼:获胜5。贝叶斯模型规范在本节中,我们使用贝叶斯方法展示了布朗运动模型的四种变体,我们在本文的其余部分重点分析了该方法。在本节中,我们使用下标i表示参数向量的第i个分量,并将N(u,σ)表示为均值为u的正态分布,方差为σ,IG(a,b)表示为形状参数a的逆伽马分布,将比例参数b,Exp(λ)表示为均值为λ的指数分布-1和U(a,b)在[a,b]上的均匀分布。在可能的情况下,先验分布通常被选择为无信息的和共轭的。5.1. 同构模型我们考虑的模型的第一个变体是同构模型。对于这种变化,我们让σ对所有公司都是一样的,而不是公司特征的函数。这是通过使参数向量γ为零来实现的,但常数特征除外。

27
nandehutu2022 在职认证  发表于 2022-6-13 23:02:34
参数的后验分布如下:P(β,σ,δ,ν,τ| T,X)∝P(T,X |β,σ,δ,ν,τ)YYy=1P(βy |βy-1)P(β)P(σ)P(δ)P(ν)P(τ),(5.1),先验分布定义如下:βyi~N(β(y-1) i,δi)β0i~N(μβ,σβ)σ~IG(aσ,bσ)δi~Exp(λ)ν~U(aν,bν)对数τ~U(aτ,bτ)。(5.2)先验和超先验的完整规范见附录D.5.2。异方差模型我们介绍的第二个模型是异方差模型,具有漂移和扩散,如第4.2节所述。对于该模型,Y个总年份数据的参数后验分布可以写成:P(β,γ,δ,ν,τ| T,X)∝P(T,X |β,γ,δ,ν,τ)YYy=1P(βy |βy-1)P(β)P(γ)P(δ)P(ν)P(τ),(5.3)Hunter、Saini和Zaman:获胜,先验分布定义如下:βyi~N(β(y-1) i,δi)β0i~N(μβ,σβ)γi~N(uγ,σγ)δi~Exp(λ)ν~U(aν,bν)对数τ~U(aτ,bτ)。(5.4)先验值的规格见附录D.5.3。我们的数据的一个问题是,存在着严重的阶级不平衡,只有少数公司退出。这可能导致模型估计结果在与真阳性率和假阳性率相关的指标方面表现不佳。例如,一个好的模型可以是不预测任何公司退出的模型。这将有一个较低的假阳性率,但接近零的真阳性率。为了克服这一挑战,可以使用过采样等技术。这将通过对少数族裔的额外副本进行采样来修改培训数据,在我们的案例中,少数族裔是退出的公司。这种方法的缺点是,它可能会导致较差的样本外性能,因为模型会过度拟合重新采样的数据点。

28
何人来此 在职认证  发表于 2022-6-13 23:02:37
克服这一问题的一种流行技术是合成少数过采样技术(SMOTE),它将噪声添加到重新采样数据点的特征向量中(Chawla et al.2002)。噪音的加入可防止过度配合的发生。对于我们的数据,我们使用了一种过采样技术,这种技术虽然不等效,但在精神上与SMOTE类似。我们将在第8节中看到,我们的技术确实会在投资组合退出方面产生更好的表现,这可以被视为真正的正利率。我们的过采样技术如下。在trainingdata中,我们对每个出口重新采样一次。然而,我们并没有保持不同融资回合的所有时间。相反,我们保留的关于融资回合的唯一信息是,退出发生在观察时间之前,但我们没有具体说明何时发生。对于公司c,这导致似然函数等于F(tobs;ti,uc(t),σc(t),7) 对于每个重新取样的公司,这只是公司在其初始日期Tian和观察时间tobs之间某个时间退出的可能性。由于我们对每个退出公司进行了一次重新抽样,因此编写该模型可能性的另一种方法是假设没有抽样,而是修改退出公司的可能性toP(tc、tobs、xc、hiL=7|βy,γ,δ,ν,τ)=F(tobs;ti,uc(t),σc(t),7)LYl=1f(til;til-1,uc(t),σc(t),hil-hil公司-1).(5.5)Hunter、Saini和Zaman:WinningHere我们刚刚将资金周转的可能性乘以退出的可能性。这种可能性相当于对退出进行重新抽样,而忽略其融资周期。

29
何人来此 在职认证  发表于 2022-6-13 23:02:40
该模型的模型参数与异方差模型相同,因此我们使用第5.2节中描述的相同后验分布。我们发现,如第8节所示,该模型在投资组合选择问题上的表现明显优于未经改进的异方差模型。我们将此模型称为稳健异方差模型,而本文其余部分将未经改进的模型称为异方差模型。5.4. 模型估计在估计模型时,我们首先为标高间距选择一个值 以及观察年tobs。我们选择 = 10我们把时间定在所选年份的12月31日。我们将2000年至tobs期间成立的所有公司纳入培训范围。模型估算中使用的所有数据必须在tobs之前可用,否则我们不包括它。例如,观察到的资金周转时间发生在TOB之前。如果一家公司在tobs之后退出,则该信息不包括在模型估计期间。此外,所有公司特征都是使用公司收到第一轮融资时可用的数据构建的。我们之所以这样做,是因为这些功能对于那些希望在早期投资公司的人来说是可用的,这是我们关注的投资时间框架。我们使用分块Gibbs抽样来估计模型,每个参数向量(βy、γ、δ)在其自身块中,所有标量值(如ν和τ)在其自身块中。我们发现,阻塞吉布斯抽样在模型估计质量和速度之间具有最佳的权衡。附录D提供了我们如何对每个参数块进行采样的确切细节。在我们的估计中,我们运行了五条链,每个链包含25000个样本。我们使用15000个样本的老化周期,并在超过该周期的每10个样本中抽取一个样本,以减少样本中的自相关。

30
mingdashike22 在职认证  发表于 2022-6-13 23:02:43
使用Gelman-Rubin标准(Gelman和Rubin 1992)评估收敛性。6、参数估计结果在这里,我们给出了第5节中给出的不同模型(称为同向、异向和稳健异向)的估计结果。首先,我们给出每个模型的模型fit分数。然后,我们分析估计参数值的统计意义,以了解哪些特征在确定公司退出概率方面最重要。在第8节中,我们将展示稳健的异方差模型给出了最佳的初创公司投资组合。因此,在同向、异向和稳健异向模型中,我们在本节中展示了稳健异向模型的参数估计结果。在描述参数值估计的所有章节中,我们重点分析了2010年观测年训练的模型。亨特、赛尼和扎曼:赢得6.1分。模型拟合得分我们计算偏差信息标准(DIC)(Spiegelhalter等人,2002年)来评估每个模型的拟合度。DIC使用数据的负对数似然来衡量fit,但惩罚自由度过多的模型(参数)。DIC分数越小,表明模型的效果越好。我们在表1中显示了模型的DIC分数。在这些模型中,异方差模型具有最低的DIC,并且在数据拟合和参数数量之间进行了最佳权衡。它比只允许公司在布朗运动的平均值上有所不同的同向skedasticmodel做得更好。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 08:21