不用L约束又不会梯度消失的GAN,了解一下?

  • 时间:
  • 浏览:1
  • 来源:uu快3IOS下载_uu快3app下载_和值

并且有了散度并且,大伙 就还还要通过缩小另一个概率分布的散度,来训练生成模型了。也本来我说接下来要做的事情应该是:

GAN-QP效果图

以及下表:

解的分析

为什证明?只还要证明你你这个 结果满足刚才说的散度的两点要求。注意,按照大伙 的逻辑,大伙 我都没有乎 它是 JS 散度,但大伙 还还要从数学深度证明它是另一个散度。

其中 α≠β。曾经一来,另一个分布分别本来我单点分布,全部没有交集。你你这个 情况报告下代入 (1),结果本来我:

具体的证明过程略微冗长,就不全部摆出来了,请读者自行去看原文的附录。肯能看下面的 WGAN 的要素,肯能 WGAN 的要素相对简单。

同样地,有了新散度,就还还要定义新 GAN 了:

1. 论文提供了本身分析和构造概率散度的直接思路,从而复杂性了构建新 GAN 框架的过程;

256 与 512

128 x 128

SGAN

3. 为了检查你你这个 散度在极端情况报告下的表现,大伙 还还要用 p(x)=δ(x−α),q(x)=δ(x−β) 去测试它。

我最大把 GAN-QP 的实验做到了 512 x 512 的人脸生成,效果还是不错的,最终的 FID 是 26.44:

原文发布时间为:2018-11-21

这里:

肯能 D[p,q] 是关于 p,q 的标量函数,并且满足:

实验结果

注意 D[p(x),q(x)] 是通过 maxT 操作实现的,其他其他组合起来本来我另一个 min-max 的过程,比如前面的例子,等价地本来我:

首先大伙 来给出散度的定义:

WGAN 的遗留什么的问题本来我何如往判别器加入 L 约束,目前有本身方案:参数裁剪、梯度惩罚、谱归一化,请参考深度学习中的Lipschitz约束:泛化和珍成模型和WGAN-div:另一个默默无闻的WGAN填坑者。

1. 不管是你你这个 p(x),q(x),并且让 T(x)≡0,大伙 就得到,肯能散度的定义是要遍历所有的 T 取最大的,其他其他它为宜不要 小于 0,这就证明了第其他非负性;

新散度,新GAN

也本来我说最优解自动满足 L 约束。其他其他大伙 还还要认为 GAN-QP 是本身自适应 L 约束的方案。

WGAN

我我觉得肯能读者真的明白了式 (1) 的含义,证明就不困难了。式 (1) 先定义了另一个期望的式子,并且对 T 取最大(用更准确的说法是求“上确界”),取最大的结果才是散度。再强调一遍,“取最大并且的结果才是散度”,你你这个 式子并全部不会 散度。

对抗网络

性能分析

其次,将最优解代入生成器的 loss,没有得到判别器的目标是:

注意大伙 对 T 没有任何约束,其他其他为了取最大,大伙 还还要让 T(α)→+∞,T(β)→−∞,从而得到上确界是另一个常数 log2。即你你这个 情况报告下 D[p(x),q(x)]=log2。

通过变分法还还要证明(还是在附录),判别器的最优解是:

还真的还还要,下面带你找另一个。不对,我我觉得不止另一个,带你找一批都行。

这本来我 SGAN。

同样地,用 p(x)=δ(x−α),q(x)=δ(x−β) 去测试 W[p(x),q(x)] 散度的性能,大伙 得到:

事实上,从原空间要定义另一个新的散度不能自己,定义了并且本来我一定容易转化为对偶形式。然而,大伙 还还要直接在对偶空间分析,由此还还要发现一批新的、特性良好的散度。换言之,大伙 我我觉得还还要直接在对偶空间中论述另一个式子是是不是满足散度的定义,从而直接给出可优化的目标,而不还要关心它具体是 JS 散度还是 W 距离了。

上端的几块小节肯能全部了呈现了你你这个 理解的流程:

注意暂且把二次项你你这个 项加入到生成器的 loss 中(理论上不成什么的问题,并且用梯度下降优化不会 有什么的问题。),肯能你你这个 项的分母是 d(xr,xf),一旦最小化二次项,等价于最小化 d(xr,xf),也本来我用 d(xr,xf) 来度量图片的差距,这是不科学的。

由你你这个 最优解,大伙 还还要得到两点结论。首先,不能自己证明最优解满足:

论文综述

基本定义



我在论文中称之为 GAN-QP。

 ●  找出它的对偶形式; ●  转化为极小-极大游戏(min-max game)。

什么的问题是:真正对训练过程有用的是第二、第三步,第一步并全部不会 没有必要。

对抗网络

对抗网络

论文的实验最大做到了 512 x 512 的人脸生成(CelebA HQ),充分表明了模型的有效性(效果不算完美,并且模型有点痛 简单)。有兴趣的大伙 ,欢迎继续阅读下去。

下面要给出的散度,形式是曾经的:

大伙 现在要构建另一个 GAN 框架,一般中有 另一个步骤:

大伙 知道 SGAN 肯能有梯度消失的风险,这是为你你这个 呢?大伙 考察另一个极端情况报告:

大伙 先来看 SGAN 中的判别器 loss,定义:

设 z=T(α,β)−T(β,α) 就得到,夹生悉有没有?这本来我个二次函数的最大值什么的问题呀,最大值是呀,其他其他大伙 全部不会 :

而 d(x,y) 是任意本身现成的距离。

一般的f散度

3. 证明 p(x)≠q(x) 时(严格来讲是它们不等的测度大于 0),W[p(x),q(x)]>0。你你这个 相对难其他,但我我觉得也很简单,只还要令 T0(x)=sign(p(x)−q(x)),没有显然有:

这我我觉得本来我 JS 散度的对偶形式。并且大伙 还还要直接基于你你这个 定义来证明它是另一个散度,并且讨论你你这个 散度本身的性质,而根本不还要知道它是 JS 散度。

性能分析

代码开源:

L约束

https://github.com/bojone/gan-qp

曾经大伙 就直接地证明了 W[p(x),q(x)] 是满足散度的定义的。

512 x 512人脸效果图

不同GAN的FID定量曲线

用 p(x)=δ(x−α),q(x)=δ(x−β) 去测试你你这个 散度,结果是:

注意大伙 有 L 约束 ‖T‖L≤1,这原困 |T(α)−T(β)|≤d(α,β),等号还还要取到,其他其他:

2. 推导出了另一个称为 GAN-QP 的 GAN 框架,你你这个 GAN 不还要像 WGAN 那样的 L 约束,又不要 有 SGAN 的梯度消失什么的问题,实验表明它为宜有不逊色于、甚至优于 WGAN 的表现。

本文作者:苏剑林

在 128 x 128 分辨率上,大伙 进行了较为全面的比较,定量指标是 FID。结果如下图:

GAN-QP

论文在 CelebA HQ 数据集上,比较了多种 GAN 与 GAN-QP 的效果,表明 GAN-QP 能媲美甚至超越当前最优的模型。

先摆结论:

有了散度就还还要构建对抗网络,大伙 最终给出的形式为:

2. 证明 p(x)=q(x) 时,W[p(x),q(x)]=0,也本来我 W[p(x),p(x)]=0,这几乎是显然成立的了;

注意,模型 (15) 中,T 是 (xr,xf) 的二元函数,但实验表明,取最简单的一元特例 T(xr,xf)≡T(xr) 即可,即 T(xr,xf)−T(xf,xr) 用 T(xr)−T(xf) 就够了,改成二元函数并没有明显提升(但也肯能是我没调好)。曾经搞笑的话,形式上就跟 WGAN-GP 非常类事了,但理论更完备。

在 128 分辨率上,最好的表现是 GAN-QP 和 SGAN-SN,不过在 256 x 256 分辨率上,它们的表现就拉开了差距:

基本定义

1. 大伙 通过 max 定义另一个数学式子,并且还还要从数学深度直接证明这是另一个散度,而不要 关心它叫你你这个 名字;

还还要直接证明它是另一个散度。你你这个 证明还算经典,其他其他将它写在这里:

这本来我 WGAN,相应的参考资料有互怼的艺术:从零直达WGAN-GP、WGAN-div:另一个默默无闻的WGAN填坑者。

下面大伙 来举例说明你你这个 思路。

平方势散度

现在的结论是:SGAN 肯能有梯度消失的风险,WGAN 我我觉得很好,但还要额外的 L 约束。没有很自然就会问:有没有不还要 L 约束,又不要 梯度消失的 GAN?鱼与熊掌还还要兼得?

 ●  D[p,q]=0⇔p=q。

没有称 D[p,q] 为 p,q 的另一个散度,散度与“距离”的主要差别是散度不要 满足三角不等式,本来我用满足对称性。并且散度肯能保留了度量差距的最基本的性质,其他其他大伙 还还要用它来度量 p,q 之间的差异程度。

现在大伙 转向一类新的散度:Wasserstein 距离。注意 Wasserstein 距离是另一个严格的、满足公理化定义的距离,不过大伙 这里只关心它的散度性质。定义:

散度

其他其他大伙 发现,GAN 的过程我我觉得就两步:1)通过 max 定义另一个散度;2)通过 min 缩小另一个分布的散度。这里的新观点,本来我将 max 直接作为散度的定义的一要素。

这本来我说,对于另一个几乎没有交集的分布,式 (1) 定义的散度给出的度量结果是常数 log2,常数就原困梯度是 0,无法优化。而 WGAN 的那两篇文章则表明,“没有交集”理论上在 GAN 中是很常见的,其他其他这是 SGAN 的固有毛病。

性能分析

其中 λ>0 是另一个超参数,d 还还本来我任意距离。

论文的附录肯能证明了式 (12) 我我觉得是另一个散度。

这不就跟 WGAN 差不要 了嘛,哪怕对于极端分布,本来我会有梯度消失的风险。鱼与熊掌真的还还要兼得。

限于算力,加之我全部不会 专门研究 GAN 的,其他其他实验方面肯能做得不足英文完善,基本能论证结论即可,请大伙 体谅,当然也欢迎各位的指导。

2. 通过 min 最小化你你这个 散度,组合起来本来我另一个 min-max 的过程,就得到了本身 GAN;

直面对偶空间

基本定义

幸好,最后把这条路走通了,还得到了其他新结果,遂提交到 Github 中,供各位参考,希望得到各位前辈高手的指点。事实上,基于类事的思路,大伙 还还要构造其他其他类事的散度,比如将平方加进 4 次、6 次方等,只不过理论分析起来就会困难其他了。

上述关于 SGAN 的论述过程,还还要平行地推广到所有的 f-GAN 中(参考《f-GAN简介:GAN模型的生产车间》[1]),各种 f 散度我我觉得没有本质上的差异,它们有同样的固有毛病(要不就梯度消失,要不就梯度爆炸)。

这也是另一个概率散度,并且大伙 也从理论上证明了它不要 梯度消失/爆炸(跟柯西不等式有关)。此外,还还还要看完 λ 本来我另一个缩放因子,事实上暂且重要,从而你你这个 GAN-QP 对 λ 是鲁棒的,λ 不要 明显影响模型的效果。

这篇文章源于我对概率散度的思考,企图得到本身更直接的理解概率散度的方案,其中还受启发于 WGAN-div

参数裁剪基本肯能被弃用了。梯度惩罚原则上本来我另一个经验土方法,有它的不合理之处,并且要算梯度通常更慢。谱归一化看起来最优雅,目前效果也挺好,不过全部不会 限制的太死的肯能性。进一步讨论请看WGAN-div:另一个默默无闻的WGAN填坑者。

结果全部不会 常数,其他其他即使在你你这个 极端情况报告下大伙 还还要也拉近另一个分布的距离。其他其他从这其他看,WGAN 要比 SGAN 要好。

你你这个 形式好像就在 WGAN 的基础加进了另一个平方形式的势能,其他其他称为平方势散度(QP-div,quadratic potential divergence)。