贝叶斯机器学习
贝叶斯线性回归
现在我们已经了解了贝叶法则,我们将继续尝试使用贝叶法则来分析线性回归模型。首先,让我们首先在数学上定义线性回归模型。
Y j = ∑ i w j * X ij
其中,i是数据X的维数。j表示输入数据X的索引。w i 是线性回归模型的权重。Y j 是X j的相应输出。
让我们来看一个例子,我们的回归方程看起来如何,让i = 3,这意味着,
Y j = w 1 * x 1j + w 2 * x 2j + w 3 * x 3j
其中j的范围是1到N,其中N是我们拥有的数据点数。
贝叶斯线性回归模型
(我们将在下一部分中讨论贝叶斯建模的过程,但是现在请考虑以下模型)
P(w,Y,X)= P(Y / X,w)* P(w)* P(X)…..(4)
要么
P(w,Y,X)* P(X)= P(Y / X,w)* P(w)…..(5)
要么
P(w,Y / X)= P(Y / X,w)* P(w)…..(6)
上面显示的模型来自贝叶斯模型理论,方程式来自相同的模型。我们将在以后的帖子中详细了解贝叶斯方法。现在,下面是从模型派生的语句:
目标 Y取决于权重 W和输入数据 X。并且权重和数据彼此独立。
现在让我们尝试为上述模型建立贝叶方程。我们旨在确定模型的参数,即权重w。因此,给定X 列 ,Y 列 作为数据的后验分布如下所示:
P(w / Y 火车 ,X 火车)= P(Y 火车 / w,X 火车)* P(w)/ P(Y 火车 / X 火车)…..(7)
在这里:可能性:P(Y 火车 / w,X 火车)
上一个:P(w)
证据:由于数据固定,P(Y 火车 / X 火车)=常数
现在,我们认为可能性是从正态分布来均值为w 牛逼 X和方差为σ 2 我的概率密度函数如下:P(Y 火车 / W,X 列车)?N(Y | W ^ 牛逼 X,σ 2 我)
我们已经采取了σ 2 我是因为计算简单矩阵,但人们可以采取不同的协方差矩阵,这将意味着数据的不同尺寸intercorrelated。
作为w的先验分布,我们采用均值为零且方差= 1的正态分布。概率分布函数可以定义为P(w)?N(w | 0
现在我们的后验分布的样子:[N(Y | W 牛逼 X,Σ 2 我)* N(W | 0
数学计算
P(w / Y 火车 ,X 火车)= P(Y 火车 / w,X 火车)* P(w)----最大化wrt w
双方日志-
log(P(w / Y train ,X train))= log(P(Y train / w,X train))+ log(P(w))
LHS =日志(C 1 * E( - (Y -瓦特? X)(2σ 2 我)-1 (Y -瓦特? x)的?))+日志(C 2 * E( - (W)(2γ 2)-1 (w)T))
LHS =日志(C 1) - (2σ 2 )-1 * || y-w T X || 2 +日志(C 2) - (γ 2)-1 * || ||瓦特 2- 最大化wrt w
删除常数项,因为它们不会出现在微分中
通过-2σ乘以表达式2 和重写,我们得到:
= || y – W T X || 2 +λ 2 * || ||瓦特 2- 最小化wrt w ---- (8)
上面的最小化问题是我们在L 2 Norm正则化中获得的精确表达式。因此,我们看到监督线性回归的贝叶斯方法在本质上解决了过拟合或欠拟合问题。
贝叶斯回归的实现
现在我们知道贝叶斯模型以分布形式表示线性回归方程的参数,我们称之为后验分布。为了计算这种分布,我们有不同的方法,其中之一是蒙特卡洛·马可夫链(MCMC)。MCMC是一种采样技术,可以从参数空间中抽取与参数在其空间中的实际分布成比例的点。(我相信正在阅读此文章的读者可能在此阶段不了解MCMC,但不用担心,我将在以后的文章中对其进行详细说明。)
1