楼主: 能者818
853 52

[量化金融] 挑选赢家:一种数据驱动的质量评估方法 [推广有奖]

11
可人4 在职认证  发表于 2022-6-13 23:01:44
RunchBase中的信息由公众用户提供,但需经版主批准(Kaufman 2013)。第二个是一个名为Pitchbook的私人维护数据库,该数据库还收集了初创公司Hunter、Saini和Zaman:Winning(Pitchbook 2018)的信息。这两个数据库为我们提供了1981年至2016年间成立的83000多家公司的数据。这些数据库为我们提供了有关公司何时收到一轮融资或实现退出的信息,以及哪些投资集团参与了一轮特定融资。此外,这些数据库为我们提供了558000多名公司员工的信息。特别是,我们有一个人为哪些公司工作的信息,他们在这些公司中的角色,以及他们的就业时间表。为了建立在个人层面的信息基础上,我们还使用了以商业和就业为中心的社交网络LinkedIn(LinkedIn 2018)。包括LinkedIn数据,我们为员工提供了完整的教育和职业历史。3.1. 资金轮次数据一家初创公司通常会在一系列轮次中获得资金。最初的资金被称为第三轮。在此之后,公司可以通过一系列的“字母轮”获得资金,这些“字母轮”被称为a系列、B系列等。字母轮通常不会超过F系列。此外,公司可以退出,也就是当一家初创公司被收购或进行IPO时。Crunchbase提供了每家初创公司的融资周期和退出日期,而我们使用的宣传手册数据只提供了成立日期。因此,我们的基础公司是由Crunchbase决定的。我们使用Pitchbook解决Crunchbase中的创建日期错误。例如,Crunchbase中有一些公司的上市成立日期是在随后的几轮融资之后。

12
mingdashike22 在职认证  发表于 2022-6-13 23:01:47
在这些情况下,我们忽略了Crunchbasefounding日期,使用了Pitchbook日期。对于我们的分析,我们只使用2000年或之后成立的公司。我们使用这个截止值是因为在今年之前,数据库中没有太多不成功的公司,这造成了一个有偏见的数据集。此外,对于我们的分析,我们特别感兴趣的是衡量一家处于早期阶段的公司最终退出的可能性。因此,我们只考虑那些我们对其种子或A轮融资有可靠信息的初创公司。特别是,如果我们没有关于astartup公司何时进入这些早期回合的信息,那么我们将从分析中省略它们。此外,我们选择专注于在美国成立的初创公司。以2000年为截止年,仅考虑到美国公司在早期阶段拥有可靠信息的情况,我们在2000年至2016年间成立了约24000家公司。我们在图1中绘制了每年成立的公司数量。可以看出,早期有几家公司,但到2011年,公司数量大幅增加。这一增长很可能是由于Crunchbase成立于2011年,此后许多公司开始将其信息输入数据库。2016年公司数量的下降是因为我们在2016年年中收集了数据。我们首先想了解这些公司(截至2016年)实现的最大融资回合的分布情况。我们在图1中绘制了按年份细分的分布图。我们从该图中观察到一些有趣的特性。

13
能者818 在职认证  发表于 2022-6-13 23:01:50
首先,在某一年内成立的公司中,有一家名为Saini,和Zaman:Winning2000 2002 2004 2006 2010 2012 2014 2016 2018 2020 2022年成立公司数00.10.20.30.40.50.60.70.80.91分形SEEDABCDEFACQUIREDIPO2000 2002 2006 2008 2012 2012 2016 2018 2020 2022年成立公司数05010001500200025003000035004000图1(左)数据集中初创公司成立年份的柱状图。(右)按公司成立年份分列的截至2016年的最大融资轮分配情况。IPO通常只有几个百分点。对于收购而言,这一价值上升到21%,但正如我们所见,收购的比例随着时间的推移发生了很大的变化。2011年后,收购比例下降到14%以下,并在随后的一年中不断下降。这种下降很可能是由于数据审查,因为这些年后发现的公司可能没有足够的时间退出。从2000年到2002年,收购比例实际上增加了。这可能是因为我们数据集中的公司数量较少,抽样偏差导致对不太成功的公司的报告不足。接下来,我们希望了解各轮融资的时间动态。图2显示了实现IPO的不同知名公司融资轮次的演变。可以看出,IPO的成功率取决于公司之间。图2中的方框图显示了命中不同回合的时间分布。从这里可以看出,IPO大约在六年后进行,但收购通常需要三年时间。其他轮融资(B轮、C轮等)之间的时间大约为一年。这些时间在公司之间的典型变化大约为一到两年。

14
大多数88 在职认证  发表于 2022-6-13 23:01:53
此外,我们可以看到,大多数收购发生在大多数公司进行C轮融资的同时。除此之外,被收购的公司越来越少,这表明,随着一家公司变老并超过C轮,如果退出,其退出更有可能是首次公开募股,而不是收购。3.2. 部门、投资者和领导层数据和特征我们现在描述我们在模型中使用的数据和特征。我们能够为我们的模型构建各种各样的特性,从简单的特性(如公司的部门)到更复杂的特性(如初创公司创始人的学术和职业背景的相似性)。各公司的特征仅使用公司收到首轮融资时已知的信息构建,我们称之为公司的基准日期。现在,我们将更详细地描述这些特性。Hunter、Saini和Zaman:Winning 2004 2006 2008 2010 2012 2016 YearFoundingSeries ASeries BSeries CSeries DSeries ESeries Fexit funding RoundTwitterYelpFacebookEtsySeries B Series C Series D Series E Series F Acquisition IPO funding Round0246810121416 Years图2(左)不同初创公司融资轮次演变图。(右)2016年前达到不同最大融资轮的时间方框图。行业数据和特征。我们模型中使用的大多数功能都与初创公司所涉及的行业有关。特别是,我们能够从Crunchbase获得每家公司的部门标签,其中一些公司属于多个部门。虽然CrunchBase为许多不同的特性提供了信息性标签,但我们选择为其中的一个子集包含二进制指示器。我们强调在我们的模型中包括从时尚到艺术情报等各种各样的部门。

15
大多数88 在职认证  发表于 2022-6-13 23:01:56
我们在附录B投资者数据和特征中提供了我们使用的行业的完整列表。根据Crunchbase数据,我们能够构建一个由投资者和公司组成的动态网络,这样每个投资者和公司在特定的利益时间都有一个节点,如果投资者在特定的利益时间之前参与了该公司的融资回合,那么投资者和公司之间就有一条连接的边缘。我们利用所有可用数据构建了这一动态网络,这意味着我们考虑了大约83000家公司和48000名投资者。我们在公司进行第一轮融资时,基于这一动态网络,得出单个公司的特征。回想一下,我们忽略了没有可靠时间信息的公司进行种子或A系列融资。因此,对于一家特定的公司,我们考虑在最早的几轮投资时,投资者的动态网络。利用这个动态网络,我们构建了一个称为投资者邻域的特征。对于具有ti最早融资日期的公司i,该特征的值是在第十年之前不存在的与公司i至少有一个共同投资者的初创公司的数量。然后,我们通过ti之前成立的公司总数来规范该值。这一特征衡量了公司投资者的相对影响力。Hunter、Saini和Zaman:Winning2011年最大收购分数<0.5709家公司系列ASeries BSeries CSeries DSeries DSeries ESeries FAcquisitionIPO2011年最大收购分数>0.58家公司系列ASeries BSeries Cacquisition图3最大收购分数特征小于0.5(左)且大于0.5(右)的公司融资轮分布饼图。从这一动态网络衍生出的另一个特征是最大IPO分数。

16
nandehutu2022 在职认证  发表于 2022-6-13 23:01:59
对于每个与公司i相关的初始投资者j,我们将FJA定义为与j相关的公司在ti之前首次公开募股的比例。然后,特征值是Fjamong对i中所有初始投资者的最大值。我们定义的一个相关特征称为最大收购分数。此功能与maximumIPO分数相同,只是我们使用的是被收购公司的分数,而不是哈丹IPO的分数。最大IPO分数和最大收购分数都是衡量公司初始投资者成功率的指标。为了可视化投资者特征的影响,我们根据图3中的最大收购分数特征(四舍五入到最接近的整数),绘制公司最终融资四舍五入的分布图。我们可以看到,对于该功能价值较高的公司,退出率略高。准确地说,在该特征小于0.5的公司(709家公司)中,22%是收购,1%是IPO,而在该特征大于0.5的公司(8家公司)中,25%是收购。这是一个很小的差异,但似乎与之前的研究一致(Nanda et al.2017)。然而,由于对该功能具有较高价值的公司数量较少,因此无法从图3中得出任何有力的结论。竞争对手的数据和功能。我们还构建了一个动态的公司网络,其中公司之间的边缘表示他们是竞争对手。

17
mingdashike22 在职认证  发表于 2022-6-13 23:02:02
具体而言,如果i公司或j公司中至少有一家在Crunchbase上列出另一家作为竞争对手,或者如果i公司和j公司都在Crunchbase上列出了基线日期为tk<TIA的同一家公司k,则基线日期为tk<TIA的i公司和基线日期为tj<TIA的j公司之间存在直接优势。利用该网络,我们确定了竞争对手A、竞争对手B、竞争对手C、竞争对手D、竞争对手E、竞争对手F、竞争对手收购和竞争对手IPO。A公司i的这些特征中的每一个都被计算为指向公司j的边的数量,这些公司在Time Hunter、Saini、,和Zaman:Winning 2011 Competitors acquisition<0.5713家公司2011 Competitors acquisition>0.54家公司Series ASeries B Series C Series D Series ESeries FAcquisitionIPOSeries ASeries Bacquisition图4竞争对手收购特征小于0.5(左)且大于0.5(右)的公司的融资轮分布饼图。Ti是该功能的特定轮数除以i的out度。此外,对于每个公司,iwe都包含一个名为had competitor info的功能,该功能是公司是否在Crunchbase上自行报告其竞争对手的二进制指标。我们将had竞争对手信息作为一项功能,因为我们怀疑创始人是否愿意自我报告其竞争对手,这可能是一个心理因素,影响创始人是否能够经营一家成功的公司。为了可视化竞争对手特征的影响,我们在图4中绘制了以竞争对手收购特征(四舍五入到最接近的整数)为条件的公司最终资金分布图。我们可以看到,对于该功能价值较高的公司,退出率略高。

18
何人来此 在职认证  发表于 2022-6-13 23:02:05
在该特征小于0.5的公司(713家公司)中,22%是收购,1%是IPO,而在该特征大于0.5的公司(4家公司)中,25%是收购。与图3中的投资特性一样,公司中的巨大不平衡阻碍了人们从图4中得出任何有力的结论。领导力数据和特征。一家公司的领导力特征源自Crunchbase和LinkedIn为其创始人和高管提供的数据。我们对衡量公司领导的经验、教育和能力特别感兴趣。我们首先使用Crunchbase数据来考虑感兴趣公司的员工、高管和顾问。我们构建的指标包括职位首次公开募股、职位获得、高管首次公开募股、高管收购、AdvisoryPO和顾问收购,这表明与公司有关联的人是否是在我们感兴趣的日期之前被收购或达成首次公开募股的前一家公司的一部分。特别是,对于工作变量,我们考虑为公司工作但不是高管或顾问的人;对于执行变量,我们考虑被标记为公司高管的人;对于顾问变量,我们考虑被标记为顾问但不是高管的人。Hunter、Saini和Zaman:WinningNext我们根据LinkedIn的数据考虑这些功能。我们非常小心地确保我们从LinkedIn使用的信息不会违反因果关系。特别是,我们确保投资者在考虑投资初创公司时,能够知道我们从LinkedIn获得的信息。我们使用的LinkedIn的一个功能是前创始人,这是在给定公司的基准日期之前之前创建公司的领导层的一部分。

19
能者818 在职认证  发表于 2022-6-13 23:02:08
我们还使用了关联公司的数量,即每个领导成员在加入给定公司之前关联的公司的平均数量。最后一对经验特征是工作重叠平均值和工作重叠标准差。为了构建这些特征,我们计算了每对领导成员之前公司的Jaccard指数。Jaccard指数定义为前几家公司的交集除以前几家公司的工会对成员。然后,我们取所有领导成员对的这些值的平均值和标准差,以获得这两个特征。我们选择使用LinkedIn数据而不是Crunchbase数据来构建这些功能,因为我们经常发现LinkedIn信息表明,当Crunchbase数据不包含这些信息时,一个人有过创业经验。我们认为,这是因为Crunchbase有点偏向于将一些比较成功的公司包括在内。我们使用的一个教育功能是来自顶级学校,这是领导成员进入顶级学校的分数。该顶级学校名单是根据已知的顶级排名(2017年《美国新闻与世界报道》国家大学排名)和我们自己的知识创建的,见附录C。我们还拥有最高教育水平的领导能力,以获得的学位来衡量。这些特征包括高中、学士、硕士和博士。对于每个学位,我们测量最高教育水平等于该学位的领导成员比例,以获得特征值。我们也有基于教育和学术专业重叠的特点。这些特征是教育重叠平均值、教育标准差、主要重叠平均值和主要标准差。

20
大多数88 在职认证  发表于 2022-6-13 23:02:11
对于每个电话,我们计算所有领导成员对的相关Jaccard指数,然后取平均值和标准差。对于教育,Jaccard指数是针对每个成员所就读的学校,对于专业,Jaccard指数是针对每个成员的学术专业。我们使用的一个更复杂的特征是主要公司相似性,它捕获了领导层和公司部门的学术专业的相似性。我们使用WordNet词汇数据库在每个成员的专业和公司部门之间创建一个语义相似度得分(NLTK 3.0文档2017)。我们使用Palmer-Wu相似度评分,该评分基于到最常见祖先和词根的距离来衡量无性网络中单词的相似度(Wu和Palmer1994)。对于完全不同的单词,该分数为零,对于等效单词,该分数为一。我们对领导成员的PalmerWu主要部门相似性得分进行平均,以获得特征值。Hunter、Saini和Zaman:赢得2011年高管IPO<0.5542家公司2011年高管IPO>0.5175家公司系列A系列B系列C系列D系列E系列FaquisitionIPO系列A系列B系列C系列D系列E系列FaquisitionIPO图5高管IPO特征小于0.5(左)且大于0.5(右)的公司融资轮分布饼图。我们使用的最后一个特征是领导力年龄。这只是公司成立时所有领导成员的平均年龄。为了估计年龄,我们假设每个成员高中毕业时为18岁,本科毕业时为22岁。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 15:54