楼主: youngvitas
3234 5

看穿机器学习(W-GAN模型)的黑箱1- 顾险峰-2017.02.12 [推广有奖]

  • 2关注
  • 6粉丝

已卖:2047份资源

硕士生

84%

还不是VIP/贵宾

-

威望
0
论坛币
3324 个
通用积分
12.2723
学术水平
15 点
热心指数
13 点
信用等级
11 点
经验
3684 点
帖子
81
精华
1
在线时间
144 小时
注册时间
2013-1-17
最后登录
2024-4-4

楼主
youngvitas 学生认证  发表于 2017-3-22 19:24:54 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
看穿机器学习(W-GAN模型)的黑箱转载:http://mp.weixin.qq.com/s/5gyZqxhdvtH-zIxKini2TQ

2017-02-12 顾险峰 CreateAMind

图a. Principle of GAN.


前两天纽约暴雪,天地一片苍茫。今天元宵节,长岛依然清冷寂寥,正月十五闹花灯的喧嚣热闹已成为悠远的回忆。这学期,老顾在讲授一门研究生水平的数字几何课程,目前讲到了2016年和丘成桐先生、罗锋教授共同完成的一个几何定理【3】,这个工作给出了经典亚历山大定理(Alexandrov Theorem)的构造性证明,也给出了最优传输理论(Optimal Mass Transportation)的一个几何解释。这几天,机器学习领域的Wasserstein GAN突然变得火热,其中关键的概念可以完全用我们的理论来给出几何解释,这允许我们在一定程度上亲眼“看穿”传统机器学习中的“黑箱”。下面是老顾下周一授课的讲稿。


生成对抗网络 GAN

训练模型 生成对抗网络GAN (Generative Adversarial Networks)是一个“自相矛盾”的系统,就是以己之矛克以己之盾,在矛盾中发展,使得矛更加锋利,盾更加强韧。这里的矛被称为是判别器(Descriminator),这里的盾被称为是生成器(Generator)。


图b. Generative Model.


生成器G一般是将一个随机变量(例如高斯分布,或者均匀分布),通过参数化的概率生成模型(通常是用一个深度神经网来进行参数化),进行概率分布的逆变换采样,从而得到一个生成的概率分布。判别器D也通常采用深度卷积神经网。

图1. GAN的算法流程图。


矛盾的交锋过程如下:给定真实的数据,其内部的统计规律表示为概率分布,我们的目的就是能够找出。为此,我们制作了一个随机变量生成器G,G能够产生随机变量,其概率分布是,我们希望尽量接近。为了区分真实概率分布和生成概率分布,我们又制作了一个判别器D,给定一个样本,D来复制判别这个样本是来自真实数据还是来自伪造数据。Goodfellow给GAN中的判别器设计了如下的损失函数(lost function), 尽可能将真实样本判为正例,生成样本判为负例:


第一项不依赖于生成器G, 此式也可以定义GAN中的生成器的损失函数。


在训练中,判别器D和生成器G交替学习,最终达到纳什均衡(零和游戏),判别器无法区分真实样本和生成样本。


优点 GAN具有非常重要的优越性。当真实数据的概率分布不可计算的时候,传统依赖于数据内在解释的生成模型无法直接应用。但是GAN依然可以使用,这是因为GAN引入了内部对抗的训练机制,能够逼近一下难以计算的概率分布。更为重要的,Yann LeCun一直积极倡导GAN,因为GAN为无监督学习提供了一个强有力的算法框架,而无监督学习被广泛认为是通往人工智能重要的一环。


缺点 原始GAN形式具有致命缺陷:判别器越好,生成器的梯度消失越严重。我们固定生成器G来优化判别器D。考察任意一个样本,其对判别器损失函数的贡献是


两边对求导,得到最优判别器函数


代入生成器损失函数,我们得到所谓的Jensen-Shannon散度(JS)


在这种情况下(判别器最优),如果的支撑集合(support)交集为零测度,则生成器的损失函数恒为0,梯度消失。


改进 本质上,JS散度给出了概率分布之间的差异程度,亦即概率分布间的度量。我们可以用其他的度量来替换JS散度。Wasserstein距离就是一个好的选择,因为即便的支撑集合(support)交集为零测度,它们之间的Wasserstein距离依然非零。这样,我们就得到了Wasserstein GAN的模式【1】【2】。Wasserstein距离的好处在于即便两个分布之间没有重叠,Wasserstein距离依然能够度量它们的远近。


为此,我们引入最优传输的几何理论(Optimal Mass Transportation),这个理论可视化了W-GAN的关键概念,例如概率分布,概率生成模型(生成器),Wasserstein距离。更为重要的,这套理论中,所有的概念,原理都是透明的。例如,对于概率生成模型,理论上我们可以用最优传输的框架取代深度神经网络来构造生成器,从而使得黑箱透明。

最优传输理论梗概

给定欧氏空间中的一个区域,上面定义有两个概率测度,满足

,

我们寻找一个区域到自身的同胚映射(diffeomorphism),, 满足两个条件:保持测度和极小化传输代价。


保持测度 对于一切波莱尔集,

换句话说映射T将概率分布映射成了概率分布,记成 。直观上,自映射,带来体积元的变化,因此改变了概率分布。我们用来表示概率密度函数,用来表示映射的雅克比矩阵(Jacobian matrix),那么保持测度的微分方程应该是:,

这被称为是雅克比方程(Jacobian Equation)。


最优传输映射 自映射的传输代价(Transportation Cost)定义为

在所有保持测度的自映射中,传输代价最小者被称为是最优传输映射(Optimal Mass Transportation Map),亦即:

,

最优传输映射的传输代价被称为是概率测度和概率测度之间的Wasserstein距离,记为


在这种情形下,Brenier证明存在一个凸函数,其梯度映射


就是唯一的最优传输映射。这个凸函数被称为是Brenier势能函数(Brenier potential)。


由Jacobian方程,我们得到Brenier势满足蒙日-安培方程,梯度映射的雅克比矩阵是Brenier势能函数的海森矩阵(Hessian Matrix),

蒙日-安培方程解的存在性、唯一性等价于经典的凸几何中的亚历山大定理(Alexandrov Theorem)。


图2. 亚历山大定理。


亚历山大定理  如图2所示,给定平面凸区域,考察一个开放的凸多面体,选定一个面的法向量记为的投影和相交的面积记为,则总投影面积满足

凸多面体可以被确定。亚历山大定理对任意维凸多面体都成立。


后面,我们可以看到,这个凸多面体就是Brenier势能函数,其梯度映射将一个概率分布映到另外一个概率分布,并且这两个概率分布之间的Wasserstein 距离对偶于此凸多面体决定的体积。理论上,这个凸多面体可以作为W-GAN模型中的生成器G。








二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 W-GAN模型 顾险峰 讨论学习

沙发
youngvitas 学生认证  发表于 2017-3-22 19:31:19
continue...

W-GAN中关键概念可视化

Wasserstein-GAN模型中,关键的概念包括概率分布(概率测度),概率测度间的最优传输映射(生成器),概率测度间的Wasserstein距离。下面,我们详细解释每个概念所对应的构造方法,和相应的几何意义。


概率分布 GAN模型中有两个至关重要的概率分布(probability measure),一个是真实数据的概率分布,一个是生成数据的概率分布。另外,生成器的输入随机变量,满足标准概率分布(高斯、均匀分布)。

    图3. 由保角变换(conformal mapping)诱导的圆盘上概率测度。


概率测度可以看成是一种推广的面积(或者体积)。我们可以用几何变换随意构造一个概率测度。如图3所示,我们用三维扫描仪获取一张人脸曲面,那么人脸曲面上的面积就是一个概率测度。我们缩放变换人脸曲面,使得总曲面等于。然后,我们用保角变换将人脸曲面映射到平面圆盘。如图3所示,保角变换将人脸曲面上的无穷小圆映到平面上的无穷小圆,但是,小圆的面积发生了变化。每对小圆的面积比率定义了平面圆盘上的概率密度函数。


我们可以将以上的描述严格化。人脸曲面记为,其上具有黎曼度量。平面圆盘记为,平面坐标为,平面的欧氏度量为。保角映射记为

,这里面积变换率函数给出了概率密度函数。诱导了圆盘上的一个概率测度



图4. 两个概率测度之间的最优传输映射。


最优传输映射 圆盘上本来有均匀分布,又有保角变换诱导的概率分布,则存在唯一的最优传输映射。图4显示了这个映射,中间帧到右帧的映射就是最优传输映射。我们看到,鼻尖周围的区域被压缩,概率密度提高。


图5. 离散最优传输。


离散最优传输映射 最优传输映射的数值计算非常几何化,因此可以直接被可视化。我们将目标概率测度离散化,表示成一族离散点,;每点被赋予一个狄拉克测度,,满足。然后,我们求得单位圆盘的一个胞腔分解,,每个胞腔映到相应的目标点。映射保持概率测度,胞腔的面积等于目标测度,

,

同时极小化传输代价,


图6. 离散Brenier势能函数,离散最优传输映射。





藤椅
youngvitas 学生认证  发表于 2017-3-22 19:33:44

离散Brenier势能 离散最优传输映射是离散Brenier势能函数的梯度映射。对于每一个目标离散点,我们构造一个平面 ,这里平面的截距是未知变量。这些平面的上包络(upper envelope)构成一个开放的凸多面体,恰为离散Brenier势能函数的图(Graph),


图6左侧显示了离散Briener势能函数。凸多面体在平面上的投影构成了平面的胞腔分解,凸多面体的每个面被映成了一个胞腔;每个面的梯度都是,因此Brenier势能函数的梯度映射就是


根据保测度性质,每个胞腔的面积应该等于指定面积。由此,我们调节平面的截距以满足这个限制。根据亚历山大定理,这种截距存在,并且本质上唯一。


离散Wasserstein距离 我们和丘成桐先生建立了变分法来求取平面的截距。给定截距向量,平面族为,其上包络构成的Briener势能函数为 , 上包络的投影生成了平面的胞腔分解, 胞腔的面积记为。我们定义的能量为,

,

这个能量在子空间 上是严格凹的,其唯一的全局最大点就给出了满足保测度条件的截距。这个能量的非线性项,实际上是上包络截出的柱体体积,

图7给出了柱体体积的可视化,柱体体积是凸函数。


图7. 离散Brenier势能函数的图截出的柱体体积


体积函数和Wasserstein距离之间相差一个勒让德变换(Legendre Transformation)。勒让德变换非常几何化,我们可以将其可视化。给定一个定义在实数轴上的二阶光滑凸函数,其图是一条凸曲线,这条凸曲线由其所有的切线包络而成。如果,在任意一点,函数的切线的斜率为y,则此切线的截距满足

这被称为是函数的勒让德变换。以切线的斜率为参数,以切线的截距为函数值。


图8.凸函数的图像由其切线包络而成,切线集合被表示成原函数的勒让德对偶。



因为的凸性,映射是微分同胚,记为。那么,原函数和勒让德变换后的函数满足关系:

,

这里c,d是常数。原函数和其勒让德变换的直观图解由图9给出。我们在xy-平面上画出曲线,曲线下面的面积是,曲线上面的面积是勒让德变换


图9. 图解勒让德变换。


勒让德变换的几何图景对任意维都对。我们下面来考察体积函数的勒让德变换。根据定义,

,

假如我们变动截距,或者等价地变动胞腔面积,考察两个胞腔交界处

,

p本来属于,变化后属于,所有这种点的总面积为。则为Wasserstein距离带来的变化是:

因此,总的Wasserstein距离的变化是

由此我们看到Wasserstein距离等于

其非线性部分是柱体积的勒让德变换。



板凳
youngvitas 学生认证  发表于 2017-3-22 19:34:27
总结
通过以上讨论,我们看到给定两个概率分布This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program.,则存在唯一的一个凸函数(Brenier 势函数)This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program.,其梯度映射This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program.把一个概率分布This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program.映成了另外一个概率分布。这个最优传输映射的传输代价就给出了两个概率分布之间的Wasserstein距离。Brenier势能函数,Wasserstein距离都有明晰的几何解释。

在Wasserstein-GAN模型中,通常生成器和判别器是用深度神经网络来实现的。根据最优传输理论,我们可以用Briener势函数来代替深度神经网络这个黑箱,从而使得整个系统变得透明。在另一层面上,深度神经网络本质上是在训练概率分布间的传输映射,因此有可能隐含地在学习最优传输映射,或者等价地Brenier势能函数。对这些问题的深入了解,将有助于我们看穿黑箱。


图10. 基于二维最优传输映射计算的曲面保面积参数化(area preserving parameterization),苏政宇作。


图11. 基于三维最优传输映射计算的保体积参数化 (volume preserving parameterization),苏科华作。

(在2016年,老顾撰写了多篇有关最优传输映射的博文,非常欣慰地看到这些文章启发了一些有心的学者,发表了SIGGRAPH论文,申请了NSF基金。感谢大家关注老顾谈几何,希望继续给大家灵感。)

参考资料
[1]Arjovsky, M. & Bottou, L.eon (2017) Towards Principled Methods for Training Generative Adversarial Networks

[2] Arjovsky, M., Soumith, C. & Bottou, L.eon (2017) Wasserstein GAN.

[3] Xianfeng Gu, Feng Luo, Jian Sun and Shing-Tung Yau, Variational Principles forMinkowski Type Problems, Discrete Optimal Transport, and Discrete Monge-Ampere
Equations, Vol. 20, No. 2, pp. 383-398, Asian Journal of Mathematics (AJM), April 2016.

报纸
钱学森64 发表于 2017-3-22 19:47:26
谢谢分享

地板
数术 在职认证  发表于 2017-3-23 15:39:55
微信图片全都显示失败啦,可以截图完善一下。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-5 04:22