楼主: CDA网校
1030 0

[数据] 数据挖掘算法:EM算法——CDA人工智能学院 [推广有奖]

管理员

已卖:189份资源

泰斗

3%

还不是VIP/贵宾

-

威望
3
论坛币
117887 个
通用积分
10243.6209
学术水平
278 点
热心指数
286 点
信用等级
253 点
经验
228030 点
帖子
6909
精华
19
在线时间
4375 小时
注册时间
2019-9-13
最后登录
2026-1-4

初级热心勋章

楼主
CDA网校 学生认证  发表于 2020-10-26 07:53:59 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
CDA人工智能学院致力于以优质的人工智能在线教育资源助力学员的DT职业梦想!课程内容涵盖数据分析机器学习深度学习人工智能tensorFlowPyTorch知识图谱等众多核心技术及行业案例,让每一个学员都可以在线灵活学习,快速掌握AI时代的前沿技术。PS:私信我即可获取CDA会员1个月免费试听机会

1. 极大似然

极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法。

比如,我们想了解抛硬币是正面(head)的概率分布θ;那么可以通过最大似然估计方法求得。假如我们抛硬币10次,其中8次正面、2次反面;极大似然估计参数θ值:

20180806065316_83789.png

其中,l(θ)为观测变量序列的似然函数(likelihood function of the observation sequence)。对l(θ)求偏导

20180806065308_94357.png

因为似然函数l(θ)不是凹函数(concave),求解极大值困难。一般地,使用与之具有相同单调性的log-likelihood,如图所示

20180806065301_63965.png

凹函数(concave)与凸函数(convex)的定义如图所示:

20180806065252_22884.png

从图中可以看出,凹函数“容易”求解极大值,凸函数“容易”求解极小值。

2. EM算法

EM算法(Expectation Maximization)是在含有隐变量(latent variable)的模型下计算最大似然的一种算法。所谓隐变量,是指我们没有办法观测到的变量。

比如,有两枚硬币A、B,每一次随机取一枚进行抛掷,我们只能观测到硬币的正面与反面,而不能观测到每一次取的硬币是否为A;则称每一次的选择抛掷硬币为隐变量。

用Y表示观测数据,Z表示隐变量;Y和Z连在一起称为完全数据( complete-data ),观测数据Y又称为不完全数据(incomplete-data)。观测数据的似然函数:

20180806065245_86582.png

求模型参数的极大似然估计:

20180806065237_20299.png

因为含有隐变量,此问题无法求解。因此,Dempster等人提出EM算法用于迭代求解近似解。EM算法比较简单,分为两个步骤:

E步(E-step),以当前参数θ(i)计算Z的期望值

20180806065229_94737.png

M步(M-step),求使Q(θ,θ(i))极大化的θ,确定第i+1次迭代的参数的估计值θ(i+1)

20180806065222_18753.png

如此迭代直至算法收敛。关于算法的推导及收敛性证明,可参看李航的《统计学习方法》及Andrew Ng的《CS229 Lecture notes》。这里有一些极大似然以及EM算法的生动例子。

3. 实例

[2]中给出极大似然与EM算法的实例。如图所示,有两枚硬币A、B,每一个实验随机取一枚抛掷10次,共5个实验,我们可以观测到每一次所取的硬币,估计参数A、B为正面的概率θ=(θA,θB),根据极大似然估计求解

20180806065214_72205.png

如果我们不能观测到每一次所取的硬币,只能用EM算法估计模型参数,算法流程如图所示:

20180806065207_28501.png

隐变量Z为每次实验中选择A或B的概率,则第一个实验选择A的概率为

20180806065201_45682.png

按照上面的计算方法可依次求出隐变量Z,然后计算极大化的θ(i)。经过10次迭代,最终收敛。

0D04CBB8996CB009643B8D6FD844F0C0.jpg

关注“CDA人工智能学院”,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘算法 EM算法 数据挖掘 人工智能 CDA

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-4 10:06