楼主: yunchuangao
1269 1

[金融计量学] 线性回归和机器学习 -- 经济和金融的应用 (1/2) [推广有奖]

  • 0关注
  • 0粉丝

本科生

35%

还不是VIP/贵宾

-

威望
0
论坛币
2440 个
通用积分
23.3071
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
2275 点
帖子
33
精华
0
在线时间
75 小时
注册时间
2008-10-7
最后登录
2023-1-1

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
【原创文章,转载请注明】


原文连接:https://www.linkedin.com/feed/update/urn:li:activity:6821635468862595072

线性回归和机器学习 -- 经济和金融的应用 (1)

线性回归发展史

-- 1795年,Carl Friedrich Gauss将最小二乘(Ordinary Least Square)应用在测绘和天文学
-- 1886年,生物统计学家Francis Galton明确定义了回归(regression)
-- 1900年,生物统计学家Karl Pearson引入了线性相关,回归系数的概念,以及统计矩(moments)
-- 1920年,生物统计学家Ronald Fisher发展了最大似然估计(maximum likelihood estimation),统计显著性(statistical significance),并引入了p-value的概念。

从统计学的发展可以看出,统计学的发展促进了生物统计的应用,同时生物统计的应用推动了统计理论的发展。得益于统计在生物学的发展,1930年一群经济学家在Cleveland, Ohio成立了Econometric Society,即计量经济学会。统计方法于是被大量应用于经济,一直延续到当前的量化交易。

与统计在生物以及其他领域的应用相比较,比如化学,在计量经济领域一直缺乏沟通职业数学家,统计学家和实际经济问题的人才。其中一个重要原因是教育的匮乏。在生物统计和化学的入门教材中常常包含当代流行的话题诸如聚类,分类,图论,模式识别,数值计算等等。而在经济领域和金融领域,基于2018年的一项调查,13,772篇经济和统计相关的文章中,只有0.65%提到了分类,聚类,神经网络,机器学习等当代流行的话题。

这种现象导致的结果是统计概念在经济和金融中的误用,和流行工具的缺失。其中最明显的例子就是线性回归。金融数据往往体现复杂的非线性关系。除了数值类型,数据本身可能是非结构化的,比如文本,图形,语音记录,图像记录等。另外,金融数据往往是高维度的,包含了大量的变量。

线性回归模型的误用可以归结为几个误区。

数据源

大数据时代的数据具有以下几个显著特征,这些特性使得线性模型难以适用。

-- 线性回归模型处理的传统的结构化数据不适合机器学习模型使用,而80%以上的有价值的信息来源于非结构化数据
-- 变量的数量往往大于观测样本的数量,即数据是高维度的
-- 稀疏性,即含有大量的0,并且夹杂大量的噪音
-- 分层结构,或者网络型的结构,数据中存在聚类特征

线性相关性

线性相关性作为一个度量,其正确应用基于合理的假设,在实际使用中是具有缺陷的:

-- 经济和金融的数据之间的关系往往是非线性的
-- 线性相关对离群值是高度敏感的,而经济和金融数据常常包含离群值
-- 线性相关性的使用假设数据具有正态分布,除此之外线性相关性的使用受到限制
-- 当数据具有明显的状态区间(regimes)时,线性相关性的值有误导作用

p-value

p-value用于模型的检测和参数的检测,在流行的因子投资中,比如value, momentum, quality, size等因子的研究中,p-value有着广泛的应用。然而,在典型的金融应用中,比如交易策略的设计,我们知道成功研发可长期获利的交易策略的概率是很低的。在这种情况下,使用p-value对回测的各种交易策略进行筛选,其结果是最终选择的策略大概率是错误的。

导致p-value使用误区的主要原因是:

-- p-value的正确使用需要较强的假设条件:不相关的回归变量,残差符合正态分布等
-- p-value估算于零假设相关的概率,我我们真正关心的是和对立假设相关的概率
-- p-value的估算是针对样品中的 in-sample,而我们关心的是样本外 out-of-sample

错误使用p-value的现象很普遍,以至于2019年美国统计学会不鼓励使用p-value作为统计显著性的度量。

过度拟合

一个统计模型可能在两种情况下出现过度拟合:

-- 训练数据的过度拟合,模型专注于解释无关信息而并不是有用的信号
-- 测试数据的过度拟合,模型的选择基于在测试数据的性能

线性模型缺乏有效的方式避免过度拟合,而机器学习模型对于不同类型的过度拟合有多种解决方案。

-- 待续

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 线性回归 significance Econometric Statistical

已有 1 人评分经验 收起 理由
wwqqer + 100 精彩帖子

总评分: 经验 + 100   查看全部评分

沙发
三重虫 发表于 2021-7-25 18:55:18 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jr
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 00:15