人大经济论坛 › 论坛 › 提问悬赏求职新闻读书功能一区 › 经管百科 › 爱问频道 › 估计的三种方法：矩法,极大似然法和最小二乘法

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: EchoEstelle

13426 3

[经济] 估计的三种方法：矩法,极大似然法和最小二乘法 [推广有奖]

0关注
31粉丝

教授

56%

还不是VIP/贵宾

威望: 0 级
论坛币: 6772 个
通用积分: 1.2139
学术水平: 220 点
热心指数: 149 点
信用等级: 90 点
经验: 22842 点
帖子: 498
精华: 7
在线时间: 839 小时
注册时间: 2010-3-10
最后登录: 2016-7-20

楼主

EchoEstelle 发表于 2014-8-11 19:49:43 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

2014.8.11：
这里直接会问，相反的问题，为什么要估计，我想知道一件事情，我知道找到知识
资源放在那里，或者可以从什么专业的人那里得到专业的意见就好了，我为什么要
花力气得到一个不确定的知识。

我觉得很好的分析有格局、有巧妙的逻辑思维结构、有突破性的结论，估计能为这哪一点做出贡献！？

回答，有价值的估计来自对专业意见的衡量，当估计建立在共有知识的基础之上时，好的分析就有
可能出现。更多的合作让结论更具价值。其实，这也是真正意义上的估计。

2014.9.1：
这时候有了更清晰的关于预测未来的认识，某种角度讲人好像就是生活在预期之中的，如果你不能预期一个工作能够给你带来
利益和快乐，你大概不会去做这个工作；如果你不能预期一个人能让你长久的快乐，你也不会那啥；如果你不能预期一个员工
给你公司带来的利益，你大概也不会去聘请这个员工。看了必应10年点击率预测的那篇论文更让相信预期对于一个事件的发生
起到的重要作用。越是一般的东西越是用途广泛，最小二乘法和最大似然估计法作为概率统计中的两种估计方法，可以有实现它们的机器学习算法。

矩法,极大似然法和最小二乘法是概率统计中三种估计参数点的方法。还有其他方法么？

---------------------------------------------------------------------------------------------------------------------------------------------------------
矩法

均值的距法估计量是由辛钦大数定理保证成立的,随机变量\xi_1,\xi_2,\xi_3,...,\xi_n,...相互独立，当样本量n足够大时有：
\[E(\xi)=\lim_{n \to +\infty}\sum_{i=1}^np_i\xi_i=\lim_{n \to +\infty}\frac{1}{n}\sum_{i=1}^n\xi_i\]
令a=E(\xi_n),对于任意小的\epsilon>0,上式等价于下面辛钦大数定理的描述，
\[\lim_{n \to +\infty}P\left\{\left|\frac{1}{n}\sum_{i=1}^n\xi_i-a\right|<\epsilon\right\}=1\]
发现：均值和期望是不一样的，加权方式不一样，但是当样本量足够大，它们几乎一样！证明过程还是需要特征函数，将在完成母函数一题后完成。

矩法估计量定义

如果总体\xi的分布函数F(x;\theta_1,\theta_2,...,\theta_l)有l个未知参数\theta_1,\theta_2,...,\theta_l，假设总体\xi的l阶原点绝
对矩有限，并计\nu_k=E(\xi^k)(k=1,2,3,...,l),\nu_k同参数有关，记做，
\[\nu_k=g_k(\theta_1,\theta_2,...,\theta_l)\],如果求出来总体参数和总体的矩估计的关系
\[\theta_k=H_k(\nu_1,\nu_2,...,\nu_l)\]
用样本的k阶原点矩作为总体k阶原点矩\nu_k的估计量\hat{nu_k},记做,
\[\frac{1}{n}\sum_{i=1}^n\xi_i^k=\hat{\nu_k}\]
将\hat{\nu_1},\hat{\nu_2},...,\hat{\nu_l}带入到H_1,H_2,...,H_l中，就得到了总体的矩法参数估计量
\[\hat{\theta_k}=H_k(\hat{\nu_1},\hat{\nu_2}...,\hat{\nu_l})=h_k(\xi_1,\xi_2,...,\xi_l)\]

矩法估计量的使用

最直接，可以用矩法估计一个分布的期望和方差：若有n个样本，\xi_1,\xi_2,...,\xi_n
\[E(\xi):=\bar{\nu_1}=\frac{1}{n}\sum_{i=1}^n\xi_i\]
\[D(\xi):=\bar{\nu_2}-\bar{\nu_1}^2=\frac{1}{n}\sum_{i=1}^n\xi_i^2-\bar{\nu_1}^2=\frac{1}{n}\sum_{i=1}^n(\xi_i-\bar{\nu_1})^2\]
可以看到矩法将\xi_i等概率处理了，估计值就是一种对分布参数的定义！

柯西分布的原点矩不存在

柯西分布是由均匀分布定义出来的。如果\theta服从[-Pi/2,Pi/2]上的均匀分布，\psi=\tan \theta正好在[-Pi/2,Pi/2]上连续,
就定义\psi服从柯西分布。先写出\theta的分布：
\[p(\theta)=\begin{cases}\frac{1}{\pi}&,-\frac{\pi}{2}\leq \theta\leq \frac{\pi}{2}\\0&,\theta<-\frac{\pi}{2} 或 \theta>\frac{\pi}{2}\end{cases}\\F(\theta)=\begin{cases}0&,\theta<-\frac{\pi}{2}\\\frac{\theta+\frac{\pi}{2}}{\pi}&,-\frac{\pi}{2}\leq \theta\leq \frac{\pi}{2}\\1&,\theta>\frac{\pi}{2}\end{cases}\]
发现：均匀分布的密度函数不连续，分布函数连续。

当随机变量有个范围，对应的随机变量的函数也会有个范围，在这两个范围之内两种随机变量对应分布的概率是一样的，往往可以利用这个相等来求新随机变量的分布函数。对于连续性的随机变量，我们感觉用概率描述不是很自然，对于离散的情况，我们可以将a,b,c三个独立事件会发生其中一件的概率就是p(a)+p(b)+p(c)；当随机变量连续时，发生一件在[a,b]区间上的点代表的事件的概率是p{x|x (- [a,b]},其实这里给我们感觉上的困惑之处在于，[a,b]上的取值是可以有无限多种情况，怎么无数种
事件发生的概率就能用一个零到一之间的数来表示呢？也就是说直觉上我们觉得不能遍历的事情好像是不可能的。但是这个直觉不对，因为极限确实存在可以观察的到。也就是说我们必须真的拓展自己的认知，就是我们观察到的现象有可能是一个连续情况截断得到的观测。其实，更自然的是，我们看到的大部分事情是连续的，你的手划过眼前，你观测到的是连续的。也就是说你可以直接用连续的函数去表示你的观测了，比如，手写书写中的一笔。原来我生活在一个连续的世界里，让我觉得有些诧异。这里还想说说人们抽象事物重点的方式，从我家到这里的火车轨势必连续而且光滑的，如果用曲线画这个铁轨的话，同时，我家到这里的火车轨迹也只是连续，将一个一个的站点看做点，顺序的连起来，形成折线，这时候只是连续；如果再注意到铁轨之间为防止热涨而留的那些空隙，我家到这里的铁路甚至都是间断的。坐在火车上的我却可以完整的从A地被送到B地。其实说明作为场，空间是连续的。至于如何去抽象两地间的铁轨，取决于抽象它们的目的。连续光滑其实都是很自然的，如果在一个现实问题中需要用连续的函数描述一种东西，尽可大胆的使用。很多的东西不要觉得它没用，是你不知道怎么用而已。

尝试柯西分布的密度函数和分布函数：
\[P\{\psi<a\}=P\{\tan(\theta)<a\}=\int_{\tan(\theta)<a}^{}p_\theta(x)dx=\int_{-\infty}^{a}p_\psi(x)dx\]
我们知道p_\theta(x)的表达形式，不知道p_\psi(x)，做变换x=\arctan y，y代表柯西分布的一个随机变量，于是：
\[\int_{\tan(\theta)<a}^{}p_\theta(x)dx=\int_{-\infty}^{a}p_\theta(\arctan y) \frac{1}{1+y^2}\, dy=\int_{-\infty}^{a}\frac{1}{\pi} \frac{1}{1+y^2}\, dy\]
得到柯西分布的密度函数，验证它在[-\infty,+\infty]上积分是否为一：
\[\int_{-\infty}^{+\infty}\frac{1}{\pi} \frac{1}{1+y^2}\, dy=\frac{1}{\pi} \arctan y|_{-\infty}^{+\infty}=1\]
求柯西分布的均值：
\[\int_{-\infty}^{+\infty}\frac{1}{\pi} \frac{y}{1+y^2}\, dy=\frac{1}{2\pi}\ln(1+x^2)\|_{-\infty}^{+\infty}\]
上式不收敛，两个无穷大相减有可能是任何一个有限的数字的。也就是期望不存在，方差自然也不存在，利用辛钦大数定理就能证明其它的矩也是不收敛的，自然没法用矩估计参数。柯西分布的一般密度函数写成这样：
\[p(x)=\frac{1}{\pi}\frac{\lambda}{\lambda^2+(x-\mu)^2}\]
到目前为止尚不知柯西分布的现实来由和用途。只看密度函数形式反正矩法是不能用的。
---------------------------------------------------------------------------------------------------------------------------------------------------------
极大似然估计法

定义的极大似然函数就是包含若干参数的密度函数的乘积，然后对似然函数求每个参数的偏导数，使得导数为零，得到参数数目个方程组，将每个参数解出来的估计方法。随机变量连续的情况比较好表示，如果随机变量离散怎么表达极大似然估计法？
---------------------------------------------------------------------------------------------------------------------------------------------------------
最小二乘法

由一个一般线性模型加上一个随机误差向量，令随机误差向量的均值为零，协方差为\delta^2 I_{n*n},也就是误差随机变量之
间独立。能够用这两个假设推出E(y)=X\beta,cov(y,y)=\delta^2 I_{n*n}需要证明，当直接用这两个结果定义线性模型时，被
称作高斯-马尔科夫线性模型。如果再令误差服从标准正态分布，就是正态线性模型。最小二乘法就是得到一些样本之后，让
误差的和达到最小时求解出来的参数\beta。意义就是你对自己获得的样本数据准确性高度自信。(还有其他什么意义？)最小二乘法估计量有若干良好性质，其中包括高斯-马尔科夫定理。在bing那篇CTR预测论文中，尚未看明白其“线性”在何处，好在何
处。线性就是乘法增长，是自然界中最自然不过的对应。它若是严格成立，是来自标度定义，从自然科学用线性模型的方式就酱。比如，速度、密度、电阻定义。事先需要观测，心里有底它们是乘法增长。
高斯-马尔科夫模型理解在此。

如果一个问题的模型不是线性模型能不能用最小二乘法？比如一个二次的模型。
----------------------------------------------------------------------------------------------------------------------------------------------------------
三种参数估计方法：

熟悉了这三种估计方法，对同一个模型做三个估计，然后进行各种估计量的性质比较会是一个有价值的方向，还需要找一个
确切的好题目。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：极大似然法最小二乘法最小二乘极大似然机器学习算法干什么知识专业资源

相关帖子

已有 1 人评分	经验	学术水平	热心指数	收起理由
yangyuzhou	+ 60	+ 1	+ 1	鼓励积极发帖讨论

总评分: 经验 + 60 学术水平 + 1 热心指数 + 1 查看全部评分

我非我见我释我是我非我

使用道具举报

沙发

cpamodeler 发表于 2014-8-11 20:48:38 |只看作者 |坛友微信交流群

Good evening buddy,
for your first paragraph,
I assume the evaluation is till needed.

On the one hand, specialist's opinion is also sort of external evaluation.
The only difference you pay for such service.

On the other hand, forecast with great uncertainty is not as good as a definitely answer, but it is still far better than nothing.

Think about logistic forecasting during war period.
There is a lot of uncertainty, no one can tell for sure what's going to happen.
However, they still have to do all kinds of forecast and evaluation.

Business world provides gigantic field to apply those military skill.
With more and more supplementary information, you could fix your model in real time.
More frequency, complete information will make your evaluation nearly perfect.

In summary,
we need the ability to tell what's going to happen in the future.
It is hard, but the value deserve us to do so.
Thank you buddy.

已有 1 人评分	论坛币	学术水平	热心指数	收起理由
yangyuzhou	+ 36	+ 1	+ 1	鼓励积极发帖讨论

总评分: 论坛币 + 36 学术水平 + 1 热心指数 + 1 查看全部评分

使用道具举报

藤椅

EchoEstelle 发表于 2014-8-11 20:59:15 |只看作者 |坛友微信交流群

cpamodeler 发表于 2014-8-11 20:48
Good evening buddy,
for your first paragraph,
I assume the evaluation is till needed.

你觉着估计和预测有啥差别？

使用道具举报

板凳

cpamodeler 发表于 2014-8-11 21:13:28 |只看作者 |坛友微信交流群

EchoEstelle 发表于 2014-8-11 20:59
你觉着估计和预测有啥差别？

In finance world,
practitioner normally uses evaluation, the tool is his/her model.

In accounting field,
practitioner generally employs forecast, the tools are historical financial statements.

The projection is the third term you may rely on, but normally it is for agree-upon-contract transaction, not for general usage.

If someone works in HR area, she/he may also use appraisal. Theoretically speaking, that's their terminology to predict asset's future performance value.

All in all,
there is no basic difference between them.
They all based on former information to tell what's going to happy in the future.

My friend, I hope it helps.

使用道具举报