2014.8.11:
这里直接会问,相反的问题,为什么要估计,我想知道一件事情,我知道找到知识
资源放在那里,或者可以从什么专业的人那里得到专业的意见就好了,我为什么要
花力气得到一个不确定的知识。
我觉得很好的分析有格局、有巧妙的逻辑思维结构、有突破性的结论,估计能为这哪一点做出贡献!?
回答,有价值的估计来自对专业意见的衡量,当估计建立在共有知识的基础之上时,好的分析就有
可能出现。更多的合作让结论更具价值。其实,这也是真正意义上的估计。
2014.9.1:
这时候有了更清晰的关于预测未来的认识,某种角度讲人好像就是生活在预期之中的,如果你不能预期一个工作能够给你带来
利益和快乐,你大概不会去做这个工作;如果你不能预期一个人能让你长久的快乐,你也不会那啥;如果你不能预期一个员工
给你公司带来的利益,你大概也不会去聘请这个员工。看了必应10年点击率预测的那篇论文更让相信预期对于一个事件的发生
起到的重要作用。越是一般的东西越是用途广泛,最小二乘法和最大似然估计法作为概率统计中的两种估计方法,可以有实现它们的机器学习算法。
矩法,极大似然法和最小二乘法是概率统计中三种估计参数点的方法。还有其他方法么?
---------------------------------------------------------------------------------------------------------------------------------------------------------
矩法
均值的距法估计量是由辛钦大数定理保证成立的,随机变量\xi_1,\xi_2,\xi_3,...,\xi_n,...相互独立,当样本量n足够大时有:
\[E(\xi)=\lim_{n \to +\infty}\sum_{i=1}^np_i\xi_i=\lim_{n \to +\infty}\frac{1}{n}\sum_{i=1}^n\xi_i\]
令a=E(\xi_n),对于任意小的\epsilon>0,上式等价于下面辛钦大数定理的描述,
\[\lim_{n \to +\infty}P\left\{\left|\frac{1}{n}\sum_{i=1}^n\xi_i-a\right|<\epsilon\right\}=1\]
发现:均值和期望是不一样的,加权方式不一样,但是当样本量足够大,它们几乎一样!证明过程还是需要特征函数,将在完成母函数一题后完成。
矩法估计量定义
如果总体\xi的分布函数F(x;\theta_1,\theta_2,...,\theta_l)有l个未知参数\theta_1,\theta_2,...,\theta_l,假设总体\xi的l阶原点绝
对矩有限,并计\nu_k=E(\xi^k)(k=1,2,3,...,l),\nu_k同参数有关,记做,
\[\nu_k=g_k(\theta_1,\theta_2,...,\theta_l)\],如果求出来总体参数和总体的矩估计的关系
\[\theta_k=H_k(\nu_1,\nu_2,...,\nu_l)\]
用样本的k阶原点矩作为总体k阶原点矩\nu_k的估计量\hat{nu_k},记做,
\[\frac{1}{n}\sum_{i=1}^n\xi_i^k=\hat{\nu_k}\]
将\hat{\nu_1},\hat{\nu_2},...,\hat{\nu_l}带入到H_1,H_2,...,H_l中,就得到了总体的矩法参数估计量
\[\hat{\theta_k}=H_k(\hat{\nu_1},\hat{\nu_2}...,\hat{\nu_l})=h_k(\xi_1,\xi_2,...,\xi_l)\]
矩法估计量的使用
最直接,可以用矩法估计一个分布的期望和方差:若有n个样本,\xi_1,\xi_2,...,\xi_n
\[E(\xi):=\bar{\nu_1}=\frac{1}{n}\sum_{i=1}^n\xi_i\]
\[D(\xi):=\bar{\nu_2}-\bar{\nu_1}^2=\frac{1}{n}\sum_{i=1}^n\xi_i^2-\bar{\nu_1}^2=\frac{1}{n}\sum_{i=1}^n(\xi_i-\bar{\nu_1})^2\]
可以看到矩法将\xi_i等概率处理了,估计值就是一种对分布参数的定义!
柯西分布的原点矩不存在
柯西分布是由均匀分布定义出来的。如果\theta服从[-Pi/2,Pi/2]上的均匀分布,\psi=\tan \theta正好在[-Pi/2,Pi/2]上连续,
就定义\psi服从柯西分布。先写出\theta的分布:
\[p(\theta)=\begin{cases}\frac{1}{\pi}&,-\frac{\pi}{2}\leq \theta\leq \frac{\pi}{2}\\0&,\theta<-\frac{\pi}{2} 或 \theta>\frac{\pi}{2}\end{cases}\\F(\theta)=\begin{cases}0&,\theta<-\frac{\pi}{2}\\\frac{\theta+\frac{\pi}{2}}{\pi}&,-\frac{\pi}{2}\leq \theta\leq \frac{\pi}{2}\\1&,\theta>\frac{\pi}{2}\end{cases}\]
发现:均匀分布的密度函数不连续,分布函数连续。
当随机变量有个范围,对应的随机变量的函数也会有个范围,在这两个范围之内两种随机变量对应分布的概率是一样的,往往可以利用这个相等来求新随机变量的分布函数。对于连续性的随机变量,我们感觉用概率描述不是很自然,对于离散的情况,我们可以将a,b,c三个独立事件会发生其中一件的概率就是p(a)+p(b)+p(c);当随机变量连续时,发生一件在[a,b]区间上的点代表的事件的概率是p{x|x (- [a,b]},其实这里给我们感觉上的困惑之处在于,[a,b]上的取值是可以有无限多种情况,怎么无数种
事件发生的概率就能用一个零到一之间的数来表示呢?也就是说直觉上我们觉得不能遍历的事情好像是不可能的。但是这个直觉不对,因为极限确实存在可以观察的到。也就是说我们必须真的拓展自己的认知,就是我们观察到的现象有可能是一个连续情况截断得到的观测。其实,更自然的是,我们看到的大部分事情是连续的,你的手划过眼前,你观测到的是连续的。也就是说你可以直接用连续的函数去表示你的观测了,比如,手写书写中的一笔。原来我生活在一个连续的世界里,让我觉得有些诧异。这里还想说说人们抽象事物重点的方式,从我家到这里的火车轨势必连续而且光滑的,如果用曲线画这个铁轨的话,同时,我家到这里的火车轨迹也只是连续,将一个一个的站点看做点,顺序的连起来,形成折线,这时候只是连续;如果再注意到铁轨之间为防止热涨而留的那些空隙,我家到这里的铁路甚至都是间断的。坐在火车上的我却可以完整的从A地被送到B地。其实说明作为场,空间是连续的。至于如何去抽象两地间的铁轨,取决于抽象它们的目的。连续光滑其实都是很自然的,如果在一个现实问题中需要用连续的函数描述一种东西,尽可大胆的使用。很多的东西不要觉得它没用,是你不知道怎么用而已。
尝试柯西分布的密度函数和分布函数:
\[P\{\psi<a\}=P\{\tan(\theta)<a\}=\int_{\tan(\theta)<a}^{}p_\theta(x)dx=\int_{-\infty}^{a}p_\psi(x)dx\]
我们知道p_\theta(x)的表达形式,不知道p_\psi(x),做变换x=\arctan y,y代表柯西分布的一个随机变量,于是:
\[\int_{\tan(\theta)<a}^{}p_\theta(x)dx=\int_{-\infty}^{a}p_\theta(\arctan y) \frac{1}{1+y^2}\, dy=\int_{-\infty}^{a}\frac{1}{\pi} \frac{1}{1+y^2}\, dy\]
得到柯西分布的密度函数,验证它在[-\infty,+\infty]上积分是否为一:
\[\int_{-\infty}^{+\infty}\frac{1}{\pi} \frac{1}{1+y^2}\, dy=\frac{1}{\pi} \arctan y|_{-\infty}^{+\infty}=1\]
求柯西分布的均值:
\[\int_{-\infty}^{+\infty}\frac{1}{\pi} \frac{y}{1+y^2}\, dy=\frac{1}{2\pi}\ln(1+x^2)\|_{-\infty}^{+\infty}\]
上式不收敛,两个无穷大相减有可能是任何一个有限的数字的。也就是期望不存在,方差自然也不存在,利用辛钦大数定理就能证明其它的矩也是不收敛的,自然没法用矩估计参数。柯西分布的一般密度函数写成这样:
\[p(x)=\frac{1}{\pi}\frac{\lambda}{\lambda^2+(x-\mu)^2}\]
到目前为止尚不知柯西分布的现实来由和用途。只看密度函数形式反正矩法是不能用的。
---------------------------------------------------------------------------------------------------------------------------------------------------------
极大似然估计法
定义的极大似然函数就是包含若干参数的密度函数的乘积,然后对似然函数求每个参数的偏导数,使得导数为零,得到参数数目个方程组,将每个参数解出来的估计方法。随机变量连续的情况比较好表示,如果随机变量离散怎么表达极大似然估计法?
---------------------------------------------------------------------------------------------------------------------------------------------------------
最小二乘法
由一个一般线性模型加上一个随机误差向量,令随机误差向量的均值为零,协方差为\delta^2 I_{n*n},也就是误差随机变量之
间独立。能够用这两个假设推出E(y)=X\beta,cov(y,y)=\delta^2 I_{n*n}需要证明,当直接用这两个结果定义线性模型时,被
称作高斯-马尔科夫线性模型。如果再令误差服从标准正态分布,就是正态线性模型。最小二乘法就是得到一些样本之后,让
误差的和达到最小时求解出来的参数\beta。意义就是你对自己获得的样本数据准确性高度自信。(还有其他什么意义?)最小二乘法估计量有若干良好性质,其中包括高斯-马尔科夫定理。在bing那篇CTR预测论文中,尚未看明白其“线性”在何处,好在何
处。线性就是乘法增长,是自然界中最自然不过的对应。它若是严格成立,是来自标度定义,从自然科学用线性模型的方式就酱。比如,速度、密度、电阻定义。事先需要观测,心里有底它们是乘法增长。
高斯-马尔科夫模型理解在此。
如果一个问题的模型不是线性模型能不能用最小二乘法?比如一个二次的模型。
----------------------------------------------------------------------------------------------------------------------------------------------------------
三种参数估计方法:
熟悉了这三种估计方法,对同一个模型做三个估计,然后进行各种估计量的性质比较会是一个有价值的方向,还需要找一个
确切的好题目。