本教程介绍使用Python StatsModels软件包和Quandl集成进行回归分析。出于激励目的,我们正在努力:一个回归分析程序,该程序从Quandl.com接收多个数据集名称,自动下载数据,进行分析,并在新窗口中绘制结果。
回归分析的类型
线性回归 分析使一条直线适合某些数据,以捕获该数据之间的线性关系。通过优化直线函数的参数来构造回归线,以使该线最适合(x,y)个观测值的样本,其中y是取决于x值的变量。回归分析广泛用于经济学,风险管理和交易中。回归分析的一个很酷的应用是校准某些随机过程模型,例如Ornstein Uhlenbeck随机过程。
非线性回归 分析使用曲线函数(通常是多项式)来捕获两个变量之间的非线性关系。回归通常是通过优化高阶多项式的参数来构造的,从而使直线最适合(x,y)观测值的样本。在文章“关于金融和交易中神经网络的十个误解”中,表明了神经网络本质上是逼近神经网络输入和输出之间的多元非线性回归函数。
金融领域中线性回归与非线性回归分析的案例仍然存在。线性模型的问题是它们经常拟合不足,并且可能会断定变量的假设,而非线性模型的主要问题是它们常常拟合过度。培训和数据准备技术可用于最大程度地减少过度拟合。
多元线性回归分析用于使用两组或更多组自变量(例如X1,X2,...,Xn)来预测一组因变量Y的值。例如,您可以尝试使用一个基本指标(例如市盈率)来预测股价,或者可以将多个指标(例如市盈率,DY,DE比率和股票的每股收益)一起使用。有趣的是,多元线性回归和感知器(也称为人工神经元,是神经网络的组成部分)之间几乎没有区别。两者都计算为输入向量的加权总和加上一些常数或偏差(用于偏移函数)。唯一的区别是,进入感知器的输入信号被馈送到通常是非线性的激活函数中。
如果多元线性回归的目标是对不同类别之间的模式进行分类,而不是对数量进行回归,那么另一种方法是利用聚类算法。当数据包含多个类别并且不止一个线性关系时,聚类特别有用。一旦数据集被分割,就可以对每个类别进行进一步的回归分析。一些有用的聚类算法是K-Means聚类算法,也是我最喜欢的计算智能算法之一,蚁群优化。
下图显示了如何使用K-Means聚类算法将数据划分为聚类(类)。然后可以对每个类分别进行回归。
Logistic回归分析 -线性回归处理连续值序列,而Logistic回归处理分类(离散)值。离散值难以使用,因为它们不可微,因此基于梯度的优化技术不适用。
逐步回归分析 -这是多重回归模型的迭代构造的名称。它通过自动选择具有统计学意义的自变量来包括在回归分析中来工作。这可以通过增加或修剪回归分析中包含的变量来实现。
存在许多其他回归分析,特别是在这里值得一提的是混合模型。混合模型是广义线性模型的扩展,在线性模型中,线性预测变量除通常的固定效应外还包含随机效应。该决策树可用于帮助确定模型的正确组件。
关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!