统计方法应用——学习理论 - 爱问频道 - 经管之家(原人大经济论坛)

0关注
31粉丝

教授

56%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 6772 个
通用积分: 1.2139
学术水平: 220 点
热心指数: 149 点
信用等级: 90 点
经验: 22842 点
帖子: 498
精华: 7
在线时间: 839 小时
注册时间: 2010-3-10
最后登录: 2016-7-20

楼主

EchoEstelle 发表于 2014-9-11 02:08:25 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

1.拟合误差

1.为什么过拟合是高方差的？
2.Hoefding不等式是什么？
3.ERM-Empirical Risk Minimization 一致性收敛最小误差假设
\[k个假设：H={h_1,h_2,\cdots,h_k},最小误差假设做训练:\hat{\epsilon}=arg \underset{h_i \in H}{Min} \epsilon(h_i),\epsilon存在上界\]
4.训练误差好理解，什么是一般性的误差？下式如何得到？
\[\forall \gamma>0,P(not \exists h_i \in H |\epsilon(h_i)-\hat{\epsilon}(h)|<\gamma)=P(\forall h_i \in H |\epsilon(h_i)-\hat{\epsilon}(h)|\leq \gamma)\ge1-2ke^{-2\gamma^2m}\]
5.黑板太落后了，应该让老师直接写Latex，学生看着都漂亮。
6.给定\gamma,P,就能确定M—训练样本量的大小。
7.对于固定的M,模型复杂度(H的大小、多项式的次数)和训练误差的关系,越复杂,一阶估计误差越小，二阶估计误差先小后大。这是一个很好的需要证明的题目。
8.训练样本量M界定总结：
\[\forall \gamma>0, \delta>0,要使得P(\epsilon(\hat{h})\leq \underset{h \in H}{min}\epsilon(h)+2\gamma)\ge1-\delta,样本量满足,M\ge\frac{1}{2\gamma^2}\log \frac{2k}{\delta}\]
9.我觉得k并不好确定，难道假设数量的确定是自由的？也就是说只能比较出相对的好坏？k无限的情形怎么处理？

2.建立假设选择

1.当分类、聚类回归组合几何，基础夯实，有价值结果的基础。组合几何Vapnik-Chervonenkis维数定义：
\[vc-dim(\Sigma)=max\{|A||A\subseteq X 且\forall B\subset A,\exists R\in\mathcal{R}使得R\cap A=B\}\]
这里\mathcal{R}是X的一个子集族，X是某图的点集。
2.题目：在二维情形下对四点分类。
3.Shatter的定义,一种动态，一种静态：
\[点集S=\{x^{(1)},x^{(2)},\cdots,x^{(d)}\},H \,Shatters\, S \,if \,H\, can\, realise\, labelling\, on \,it.\]
\[For\, S=\{x^{(1)},x^{(2)},\cdots,x^{(d)}\},Define \,h:S \to \{A_1,A_2,\cdots,A_n\},A_i \subset S, and \underset{n}{\bigcup} A_i=S ,\\and\, \forall 1\leq i<j \leq n \,\exists A_i \cap A_j=\varnothing ,H \,contains\, all\, h\,called\,Shatter of S.\]
4.点的不同"两"个维度：待分类维度和位置维度，当然，位置维度可以是n，其实位置维度也就是已知的特征维度。并且前提假设是选择的特征维度都是有用的，要充分利用。这能解释为什么WD的一位经理告诉我的为什么他们花了很大力气做了一个病
理诊断的学习，结果却不尽人意。(也有可能是数据不够)为什么会有一些dirt的工作。但是这里的特征位置又不是完全实平面上的位置，是图论意义的相对位置。对于不能分类的位置怎么理解？
5.图论意义上的n维和实数意义上的n维有什么异同？
6.动态的vc-dim定义：
\[vc(H) \:is\:the\:size\:of\:the\:largest\:set\:shatterd\:by\:H.\]
7.vc-dim总是针对一个(S,H)而言，总共有3个，就分不成4类，可以分成1,2,3类。
8.n维分类器的维度是n+1？
9.学习理论中一重要结论[需要证明]:
\[Given\: H\:vc(h)=d,thenP\left(|\epsilon(h)-\epsilon(\hat{h})|\leq O\sqrt{\frac{d}{m}\log\frac{m}{d}+\frac{1}{m}\log\frac{1}{\delta}}\right)>1-\delta ,\\and\,P\left(\epsilon(\hat{h})\leq \epsilon(h^*)+ O\sqrt{\frac{d}{m}\log\frac{m}{d}+\frac{1}{m}\log\frac{1}{\delta}}\right)>1-\delta\]
->其中\epsilon(h^*)意思是：？
->要使学习结果足够好，训练样本量和vc(H)正相关。

3.模型选择

1.(1)多项式次数的选择(2)SVM中间隔参数C的选择
\[模型集合：\mathcal{M}=\{M_1,M_2,\cdots \cdots\}\]
2.k交叉验证：将所有数据s分成k块，选出k-1块训练，用剩下的1块检验，共有k种方案。当k=|s|-1，留1交叉验证。
3.若有n个特征，特征选择方案就有2^n个，然后在这个特征选择方案空间中进行选择。记一个特征i。
4.向前选择算法：(?)
\[令方案\mathcal{F}=\varnothing,\]
5.后向选择算法：
\[令方案\mathcal{F}=\{1,2,\cdots,n\},\]
6.证明选择最好的特征是个NP难的问题。
7.特征过滤方法：对每个特征i进行输出y影响计算，比如相关度。如何理解概率分布之间的距离KL？比如重复代表信息量不大
代表频数高，对于低信息量的东西分布，比方是离散的分布，事件点比较少，比较简单；信息量大的最起码事件点多，事件点
之间有很好的关联关系，那岂不是说信息量大的事物实际上是独立的事件点少；那么低信息量的东西独立事件点多，主要是关联事件点相对少。所以可以说，价值存在于关联之中。其实，这是说就是要度量分布内部的关联，x和y都被当做内部的东西，才会出有价值的模型。伟大。如何度量分布的关联呢？这不，回到了特征选择的方法——KL距离。[需要对KL的理解]选取头
k个就好了。再用交叉验证决定用几个特征。
8.贝叶斯规范化：
9.Online Learning描述和Error：
\[x^{(1)} \to \hat{y}^{(1)} \to y^{(1)} \to x^{(2)}\to \hat{y}^{(2)}\to y^{(2)} \to \cdots\]
\[Error：\sum_{i=1}^{m}|\hat{y}^{(i)}-y^{(i)}|\]
10.感知算法[需要描述、证明]：
\[初始化\theta=0,i个训练样本之后更新参数,\theta=\theta+\alpha(y^{(i)}-h_\theta(x^{(i)}))x^{(i)}.即使x^{(i)} \in \mathrm{R^{\infty}},也存在感知算法将R完美分类\]

4.怎么使
1.按我自己的理解从三层模型从外向里开始debug。
2.自己能够看清楚一部分，但是看不清楚全部，但是需要看清楚全部，同时人不能帮你看清楚看不清楚的那一部分，同时算法
能帮你看清楚你看不清楚的那一部分，当前面的问题全部确定，可行性研究结束，才有必要开始你的算法。只能原地踏步了？
所以，这个并不容易。
3.“一半的时间被化在诊断方法设计上面。”需要方差分析，bias分析，Error分析，Ablative分析，避免过早的统计优化。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：统计方法 Minimization Empirical Learning Nothing 不等式黑板漂亮如何

[其它] 统计方法应用——学习理论 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级学术勋章

初级热心勋章

中级热心勋章

中级学术勋章

初级信用勋章

中级信用勋章

高级热心勋章

高级学术勋章

特级学术勋章

特级热心勋章

高级信用勋章

特级信用勋章

本版微信群

[其它] 统计方法应用——学习理论 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级学术勋章

初级热心勋章

中级热心勋章

中级学术勋章

初级信用勋章

中级信用勋章

高级热心勋章

高级学术勋章

特级学术勋章

特级热心勋章

高级信用勋章

特级信用勋章

本版微信群

扫码加我拉你入群