http://www.ma-xy.com

第一章深度学习 1

1.1 深度置信网络 DBN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 DBN 网络结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.2 DBN 学习算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 深度玻尔兹曼机 DBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2.1 DBM 网络结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2.2 DBM

学习方法

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2.3 DBM 的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.4 高斯 RBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3 自动编码器 AE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.3.1 基础自动编码器 AE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.3.2 稀疏自动编码器 Sparse AE . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.3.3 降噪自动编码器 Denoising AE . . . . . . . . . . . . . . . . . . . . . . . . 20

1.3.4 边缘降噪自动编码器 mDAE . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.3.5 收缩自动编码器 Contractive AE . . . . . . . . . . . . . . . . . . . . . . . 21

1.3.6 堆积自动编码器 Stacked AE . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.3.7 变分自动编码器 VAE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.3.8 重要性加权自动编码器 IWAE . . . . . . . . . . . . . . . . . . . . . . . . . 34

1.3.9 随机生成网络 GSN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.3.10 beta - VAE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

1.3.11 MATLAB 应用实例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

1.4 卷积神经网络 CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

1.4.1 基础卷积神经网络 CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

1.4.2 AlexNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

1.4.3 NiN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

1.4.4 GoogLeNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

1.4.5 VGG Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

1.4.6 ResNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

1.4.7 MATLAB 应用实例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

http://www.ma-xy.com

1.5 循环神经网络 RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

1.6 对抗生成网络 GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

1.6.1 引言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

1.6.2 Vanilla GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

1.6.3 f-GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

1.6.4 Conditional GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

1.6.5 InfoGAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

1.6.6 Mali GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

1.6.7 Boundary Seeking GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

1.6.8 Mode Regularized GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

1.6.9 DCGAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

1.6.10 Improved GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

1.6.11 Least Squares GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

1.6.12 Wasserstein GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

1.6.13 Improved WGAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

1.6.14 Loss Sensitive GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

1.6.15 Coupled GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

1.6.16 Dual GAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

1.6.17 Boundary Equilibrium GAN . . . . . . . . . . . . . . . . . . . . . . . . . 165

http://www.ma-xy.com 2 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习

1.1 深度置信网络 DBN

Hinton 于 2006 年首次提出深度置信网络 (deep belief network, DBN)，从而引起了深度学

习的热潮。之后，深度学习模型又发展出了深度玻尔兹曼机 DBM、堆积自动编码器 SAE、卷积

神经网络 CNN、用于语音和文本处理的 RNN 以及对抗生成网络 GAN 等等。在开发 DBN 之

前，多层前向神经网络 MLP 往往只有 3 到 4 层的深度，太深的网络被认为是难以优化的，直

到 DBN 出现后，在 MNIST 数据集上准确率超过 (核) 支持向量机，才使得深度网络开始得到认

可。尽管 DBN 与其它深度网络相比，已经失去了研究者和工业开发者的青睐，我们还是应该标

注一下，除了表示敬意之外，也可以由此开启深度学习之旅。顺带一提的是，深度学习工具有许

多，并且它们的更新很快，所以后面大部分内容我们都只介绍深度模型的理论。同时，由于深度

学习的发展速度很快，基本上是日新月异的，每天都有新成果、新应用，这使得我们想要全面学

习它变得困难。我们不得不挑选一些具有里程碑意义的网络来进行介绍。

1.1.1 DBN 网络结构

我们知道，限制玻尔兹曼机 RBM 是没有网络层次结构的，如果要将其分层，可以分为可视

层 v 和隐含层 h。基本的 RBM 网络结构如图 (1.1) 所示

图 1.1: RBM 网络结构图

形式上有 v, h 两层。现在，我们考虑能否把多个 RBM 网络“堆积”在一起？虽然多个 BP

网路“堆积”而成 MLP 不易于训练，但是多个 RBM 堆积未必不可以训练，因为 RBM 网络的

训练方式并不是基于反向传播算法的。

我们先来将 2 个 RBM 堆积在一起，如图 (1.2) 所示，其中：第一个 RBM

和隐含层 h

是

第二个 RBM

的可见层，其权重为 W

, W

。

http://www.ma-xy.com

1.1 深度置信网络 DBN 第一章深度学习

图 1.2: 2 个 RBM 堆积图

图 (1.2) 中的神经元连接方式是无向连接/双向连接的，并且不考虑阈值 b。我们先训练

RBM

，当这个 RBM

收敛到数据集时，我们得到其权重 W

，并得到 RBM

的隐含层激活模

式 (样本/向量)。我们将每个隐含层激活模式作为数据集来训练第 2 个 RBM

。一个有趣的事情

是：如果 v 中的神经元数目和 h

相等，那么我们训练完 RBM

得到 W

是 W

的转置，RBM

可以是 h

的一个很好的模型。

现在将底层 RBM

的权重改变一下，准确的说是将其连接方式改变一下，我们只保留 h

→ v

方向上的权重，而不要 v → h

方向的权重。这样，网络就变成了一个有向网络，如图 (1.3)(a)

所示

图 1.3: 2 个 RBM 的右向网络图

至于为什么这样做，以后有机会再讨论。我们将其扩展到 4 层，如图 (1.3)(b) 所示，只有在

顶部的 RBM

中是真的双向连接，而在 RBM

, RBM

中，只有下行权重，所以网络也不再是

RBM 网络了。它更像 logistics 置信网络 (1992.Neal)，称这种由 RBM 和 logistics 置信网络混合

的深度网络为深度置信网络 DBN。

下面，我们考虑如何运行 DBN。以图 (1.3)(b) 为示例，为了从这个模型中生成数据，或者

说为了让这个模型来拟合样本的分布，首先，通过顶层 RBM

在 h

, h

中进行热平衡采样，结

束之后，就有了

。这里的 h

是 R BM

定义的 h

的先验分布，然后，将 h

通过权重 W

传

递到 h

，无论 h

中得到什么样的二值状态，紧接着通过 W

传递给 v，来得到生成数据。所以，

我们执行一个从 h

开始自顶而下的传播，去得到其它各层的状态，就像在一个 sigmoid 置信网

络中一样。

现在，我们考虑一个深层的 DBN，由 L 个 RBM 堆积而成，如图 (1.4) 所示

http://www.ma-xy.com 2 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.1 深度置信网络 DBN

图 1.4: L 层 DBN 示意图

图中共有 L 个 RBM。整体来看，DBN 有 1 个可视层 v 和 L 个隐含层 h

(l)

(l = 1, 2, . . . , L)，

并且有 L 个权重矩阵 W

(l)

(l = 1, 2, . . . , L)，有 L + 1 个阈值 b

(l)

(l = 0, 1, . . . , L)。其中：b

(0)

是

可视层 v 的偏置。假设我们已经有了所有的权重 W = {W

(l)

} 和阈值 b = {b

(l)

}，令 θ ≜ (W, b)，

于是有下面的概率公式

p(h

(L)

, h

(L−1)

) ∝ exp



(L)T

(L)

+ b

(L−1)T

(l−1)

+ h

(L−1)T

(L)



p(h

(l)

= 1|h

(l+1)

) = σ



(l)

+ W

(l+1)

·i

(l+1)



l = 1, 2, . . . , L − 2

p(v

= 1|h

(1)

) = σ



(0)

+ W

(1)

·i

(1)



如果 v 不是二值 01，而是实值 v

∈ R，可以用下式来是实现高斯 RBM

v ∼ N(v|b

(0)

+ W

(1)T

(1)

, β

−

其中：β 是协方差矩阵，是一个对角矩阵。这里我们不详细介绍高斯 RBM。上面，我们说过从

开始，如何生成 v，其联合概率分布为

p(v, h

, h

, . . . , h

) = p(v|h

)p(h

) ···p(h

L−2

L−1

)p(h

L−1

)

虽然是 DBN，但是我们的目标仍然是求 θ 使样本概率最大，即样本的似然函数最大。现在

的问题是：样本 v 的概率是多少呢？

1.1.2 DBN 学习算法

对于分类问题

x, y

，

DBN

的学习一般分为

个过程：

1. 使用无标签数据 x(只用 x，不用 y) 无监督的训练 DBN。这里，关于无监督的训练 DBN，

可以采用 2006.Hinton 提出的贪心逐层算法，即对每一个 RBM 进行训练。在无监督训练

DBN 后，得到参数 θ ≜ (W, b)。

2. 使用有监督数据 x, y 进行 θ 的微调。在无监督 θ 的基础上，将 θ 视为网络初始参数，将整

个网络视为前向网络，用 BP 算法对网络权重 W 和阈值 b 进行微调。

http://www.ma-xy.com 3 http://www.ma-xy.com

http://www.ma-xy.com

1.2 深度玻尔兹曼机 DBM 第一章深度学习

采用贪心逐层算法训练 DBN 是容易实现的，我们将 DBN 分为 L 个 RBM，对每个 RBM

进行训练，并得到权重和阈值 W

(l)

, b

(l)

v ∼P

data

log p(v)

v ∼P

data

(1)

∼p

(1)

|v )

log p

(2)

)

其中：p

(1)

是第一个 RBM 表示的的概率分布。在大多数应用中，对 DBN 进行贪心逐层训练后，

需要再花费时间进行联合训练，训练好的 DBN 可以直接用于生成任务。如果要将其用于分类任

务，我们可以将贪心算法求得的参数 θ 作为网络参数的初始值，搭建如图 (1.5) 的多层前向神经

网络 MLP

图 1.5: DBN 的权重微调网络

并且

(1)

= σ



(1)

+ v

(1)



(l)

= σ



(l)

+ h

(l+1)T

(l)



l = 2, 3, . . . , L

然后，用 BP 等算法来对 MLP 网络进行训练，微调其参数 θ。

1.2 深度玻尔兹曼机 DBM

1.2.1 DBM 网络结构

DBM(Deep Boltzmann Machine) 是另一种深度生成模型，由 Salakhutdinov 和 Hinton 于

2009 年开发。与 DBM 不同的是，它是一个完全无向的网络。以一个含有两个隐含层的 DBM 为

例，其网络结构示意图如图 (1.6) 所示

http://www.ma-xy.com 4 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.2 深度玻尔兹曼机 DBM

图 1.6: 3 层 DBM 网络结构示意图

DBM 是一个基于能量的模型，这意味这模型中变量 (神经元) 的联合概率分布可以由能量函

数表示：在参数 θ 给定下，网络的能量函数 (忽略偏置 b) 为

(v, h

(1)

, h

(2)

) = −v

(1)

− h

(1)T

(2)

由此，网络的联合概率分布 (Boltzmann 分布) 为

p(v, h

(1)

, h

(2)

) =

exp



−E

(v, h

(1)

, h

(2)

)



与全连接的 BM 相比，DBM 拥有一些和 RBM 相似的特点，比如：由于层内神经元无连接，

联合概率分布等于边缘概率分布的乘积。对 DBM 而言，这种独立性表现在：在给定相邻层神经

元的状态之后，可以写出中间层的条件概率分布。比如：对 h

(1)

层而言，相邻层 v, h

(2)

的神经元

状态值给定后，h

(1)

层内各神经元相互独立。于是，条件联合概率分布等于各分量条件分布的乘

积



(1)

|v, h

(2)







(1)

|v, h

(2)



而单一神经元 h

取值为 0 和 1 的概率值为



= 1|v, h

(2)



= σ



(1)

·i

+ W

(2)

i·

(2)





= 1|h

(1)



= σ



(1)

i·

(1)





= 1

(2)

(1)





(1)T

(2)

·k



上面说明 p(v|h

(1)

, p(h

(1)

|v, h

(2)

), p(h

(2)

(1)

) 是可以确定的。但是，p(h

(1)

, h

(2)

|v) 是不能确定

的，或者说给定 v 后，h

(1)

层和 h

(2)

层的各神经元之间不是独立的，因此，DBM 可以看成是介

于 BM 和 RBM 之间的网络。

上述性质使得吉布斯采样能够在 DBM 中运行，吉布斯采样每次只更新一个神经元。由于我

们给定一层 h

(1)

的邻层 v 和 h

(2)

后，h

(1)

的概率也就确定了，那么，对于一个 L 层的 DBM 而

言，可以将 DBM 分为两部分：奇数层和偶数层。给定偶数层，关于奇数层的分布是平衡的。因

此，可以作为两部分同时且独立地采样。

http://www.ma-xy.com 5 http://www.ma-xy.com

http://www.ma-xy.com

1.2 深度玻尔兹曼机 DBM 第一章深度学习

无论是 DBN 还是 DBM，我们的目标都是求解参数 θ，使样本 S = {v

} 出现的概率最大，

即 max

P (S|θ)，可以简写为 max

P (S)

P (S) =



k=1

p(v

)

上式取对数后，有

max

ln L(θ) = log P (S) =



k=1

log p(v

)

引入一个条件分布函数 q(h|v)(在后面的 VAE 部分，我们会详细介绍 EM 算法和变分近似

推断)，并且由于



q(h|v) = 1，有

log p(v) =





q(h|v)



log p(v)



q(h, v) log

p(v, h)

p(h|v)

q(h|v)

= H(q) +



q(h|v) log p(v, h) +



q(h|v) log

q(h|v)

p(h|v)

= KL



q(h|v)||p(h|v)



+ H(q) +



q(h|v) (log p(h) + log p(v|h))

其中：q(h|v) 可视为 p(h|v) 的近似函数

q(h|v) = q(h

, h

, . . . , h

|v) ≈ p(h

, h

, . . . , h

|v) = p(h|v)

于是

log p(v) ⩾ H(q) +



q(h|v)



log p(h) + log p(v|h)



=: L(q)

当且仅当 p = q 时，上式等号成立。即 L(q) 是 (单样本) 对数极大似然函数 ln p(v) 的下界。由

于 p(h

, h

, . . . , h

|v) 不易求解，所有原极大似然估计方法不易求解，我们转而求极大下界

max



k=1

L(q)

由于 q 是一个函数，所以这是一个变分问题。

我们通过一些简单的分布族来近似特定的目标函数 p(h|v)，在具体的 2 个隐含层的 DBM

中，p(h|v) 写为 p(h

(1)

, h

(2)

|v)。在均匀场近似的情况下，近似分布族是隐含层神经元条件独立的

分布，即

q(h

(1)

, h

(2)

|v) =



q(h

(1)

|v)



q(h

(2)

|v)

http://www.ma-xy.com 6 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.2 深度玻尔兹曼机 DBM

均匀场近似的目标是着多最适合真实后验分布 p(h

(1)

, h

(2)

|v) 的近似分布 q(h

(1)

, h

(2)

|v)。并且，每

次使用新样本 v 后，必须再次运行推断过程，从新找到不同的分布 q。我们可以找到许多衡量 q

和 p 近似程度的方法，均匀场方法是最小化二者的 KL 距离

min

KL(q||p) =



q(h

(1)

, h

(2)

|v) log



q(h

(1)

, h

(2)

|v)

p(h

(1)

, h

(2)

|v)



将 q 作为伯努利分布的乘积进行参数化 (对于泛函问题，我们一般采用参数化方法)，即将 h

(1)

的每个神经元的概率与一个参数相关联。具体来说对每个神经元 j，

(1)

= q(h

(1)

= 1|v)，其中：

(1)

∈ [0, 1]。另外，对每个神经元 k，

(2)

= q(h

(2)

= 1|v)，其中：

(2)

∈ [0, 1]。因此，我们有下

面的近似后验

q(h

(1)

, h

(2)

|v) =



q(h

(1)

|v)



q(h

(2)

|v)





(1)



(1)



1 −

(1)



1−h

(1)





(2)



(2)



1 −

(2)



1−h

(2)

现在已经制定了近似分布 q 的函数族 (即函数空间转化为参数空间)，下面的工作就是在参

数空间中寻找最优的参数，来使 q 和 p 的 KL 距离最小。在之前的偏微分方程中，我们通过在样

本点形成方程组来求解求解参数，这里用均匀场方程来指定参数，均匀场方程式通过求解变分下

界导数为 0 的位置而推到出的。

L(q) =



(1)

(2)

q(h

(1)

, h

(2)

|v) log



p(v, h

(1)

, h

(2)

; θ)

q(h

(1)

, h

(2)

|v)





(1)

(2)

q(h

(1)

, h

(2)

|v)E(v, h

(1)

, h

(2)

; θ) − log Z(θ) + H(q)

其中：Z 是一个归一化因子，H 为熵。我们希望求解 q(h

(1)

, h

(2)

|v) 来最大化 L(q)。将 q(h

(1)

, h

(2)

|v)

带入到 L(q) 中，有

L(q) =



(1)



(1)

(2)

− ln Z(θ) + H(q)

上式关于

(1)

(2)

求导，令导数为 0，得到拟合点方程为

∂

(1)

L(q) = 0 j = 1, 2, . . . , n

∂

(2)

L(q) = 0 k = 1, 2, . . . , m

http://www.ma-xy.com 7 http://www.ma-xy.com

http://www.ma-xy.com

1.2 深度玻尔兹曼机 DBM 第一章深度学习

我们来看其中的一个

∂

(1)

(

)

∂

(1)

L(q) =

∂

(1)





(1)



(1)

(2)

− ln Z(θ) + H(q)



∂

(1)





(1)



(1)

(2)

− ln Z(θ)

−





(1)

+ (1 −

(1)

) ln(1 −

(1)

)



−





(2)

+ (1 −

(2)

) ln(1 −

(2)

)







(1)



(2)

− ln



(2)

1 −

(2)



令上式等于 0，有

(1)

= σ





(1)



(2)



同样处理

∂

(2)

L(q)，有

(2)

= σ





(2)

(1)



综上，我们得到如下更新规则 (不考虑偏置 b)

(1)

= σ





(1)



(2)



∀j

(2)

= σ





(2)

(1)



∀k

在该方程组的不动点 (解) 处，我们有变分下界 L(q) q 的局部极大值。并且要注意的是，我们是

交替更新 h

(2)

, h

(2)

。

1.2.2 DBM 学习方法

在上面的分析中，给出了变分推断找到 p(h|v) 的近似 q(h|v)，然后通过最大化 L(v, q, θ) 来

进行学习。对于有两个隐含层的 DBM，目标函数 L 为

L(q, θ) =



(1)



(1)

(2)

− ln Z(θ) + H(q)

上述表达式中仍然包含配分函数 (归一化因子)Z(θ)。上面的 L(q, θ) 是极大似然函数 p(v|θ) 的下

界，是一个函数 q 和参数 θ 的函数(这种情况我们在前面多次见到过)，我们希望通过最大化这个

http://www.ma-xy.com 8 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.2 深度玻尔兹曼机 DBM

下边界来提高似然函数。我们考虑采用 EM 算法来实现最大化：E 步，解

(1)

和

(2)

；M 步，最

大化参数 θ。前面的分析，我们仅考虑了 E 步求解

(1)

和

(2)

，下面，来求 θ 使 L(q, θ) 最大

∇

L(q, θ) =

∂

∂θ





(1)



(1)

(2)

− ln Z(θ) + H(q)



∂

∂θ





(1)



(1)

(2)



−

∂

∂θ

ln Z(θ)

上式中的

(1)

(2)

在 E 步中已经计算得到了，带入即可；关键是后面的

∂Z(θ)

∂θ

。通过随机极大化

算法 (SML) 来进行求解，SML 的伪代码如下 (1)

1.2.3 DBM 的预训练

不幸的是，随机初始化后使用 SML(随机极大似然算法) 的 DBM 通常是失败的。在某些情

况下，DBM 可以很好的表示分布，但是，它没有比仅使用 RBM 获得更高的似然值。目前，已经

开发了一些联合训练技术，一般而言，克服 DBM 的联合训练问题最初的和最流行的方法是贪心

逐层预训练技术。我们将 DBM 中的每两层视为一个 RBM，进行预训练，在训练完成后，可以

用 PCD 训练 DBM。DBM 的贪心逐层预训练方法与 DBN 不同，每个单独的 RBM 的参数可以

直接复制到 DBN，而在 DBM 中，RBM 的参数在复制到 DBM 之前，必须进行修改。RBM 仅

使用自底向上的输入进行训练，但是在 DBM 中，某层 (比如：h

(1)

) 将同时接受上层 h

(2)

和下层

v 的输入。为了解决这一问题，Salakhutdinov 和 Hinton(2009) 提出：在将 RBM 堆积成 DBM

之前，将 RBM 的网络参数除以 2(底部和顶部除外)。

生成式预训练

在 DBN 和 DBM 中，我们都有逐层预训练，都要将 L 个 RBM 单独训练，然后再组装成深

度网络。其实 RBM 不是唯一可以预训练组装的模型，后面介绍的自动编码器及其变体也是可以

堆积的，关于这一点，我们将在后面介绍。

监督式预训练

另外，无论是 RBM 还是 AE，都是生成式预训练技术，还可以使用鉴别式预训练来鉴别性

的初始化网络参数，例如：我们可以使用 BP 来确定权重。¬使用有标签样本数据 x, y 来训练第

一个隐含层 h

(1)

，如图 (1.7)(a) 所示

http://www.ma-xy.com 9 http://www.ma-xy.com

http://www.ma-xy.com

1.2 深度玻尔兹曼机 DBM 第一章深度学习

算法 1 SML for DBM two hidden layers

1: 初始化：样本集 D

= {v

}

k=1

，N，初始权重 W

, W

，容许误差 ε，学习率 η，Gibbs steps

N，初始虚拟样本 {˜v,

(1)

(2)

}(每个都是 m 行的随机矩阵)。

2: while 未达到停止准则 do

3: // 停止准则可以是最大迭代次数或者梯度 ∆W < ε。

4: 从样本集 D

中随机挑选 M

个样本的小批量 v =



(1)

, v

(2)

, . . . , v

)



。

5: 初始化矩阵

(1)

和

(2)

。

6: while 没有收敛 (均匀场推断循环) do

(1)

← σ



(1)

(2)

(2)T



(2)

← σ



(1)

(2)



7: end while

∆W

(1)

←

(1)

∆W

(2)

←

(1)T

(2)

8: for n ← 0; n < N ; n ← n + 1(吉布斯采样) do

9: Gibbs block 1:

˜v

∼ p(˜v

= 1) = σ



(1)

j·

(1)



∀i, j

(2)

∼ p(

(2)

= 1) = σ



(1)

(2)

·j



∀i, j

10: Gibbs block 2:

(1)

∼ p(

(1)

= 1) = σ



˜v

(1)

·j

(2)

·j



∀i, j

11: end for

12: 计算

∆W

(1)

← ∆W

(1)

−



t=1

(1)

∆W

(2)

← ∆W

(2)

−



t=1

(1)T

(2)

13: 更新权重

(1)

← W

(1)

+ η∆W

(1)

(2)

← W

(2)

+ η∆W

(2)

14: end while

15: 输出：W

(1)

, W

(2)

http://www.ma-xy.com 10 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.2 深度玻尔兹曼机 DBM

图 1.7: BP 预训练示意图

得到权重 W

(1)

；接着在 h

(1)

和输出层之间插入一个新的隐含层 h

(2)

，再用 BP 算法训练

v, h

(1)

, h

(2)

, y，得到 W

(2)

；®如此下去，知道插入 h

个隐含层，收敛后得到 W

(L)

。对于采用哪

个 W

(1)

来进行的训练，我们可以：使用中训练的 W

(2)

，在堆积成 DBM 时不用此 W

(2)

；可

以都采用中的 W

(2)

；可以采用¬中的 W

(1)

，在中不对 W

(1)

训练。

逐层 BP 和逐层贪心算法相似，但在 BP 算法中，每次新的隐含层加入时，所有的层都联合

更新，而在逐层贪心算法中，底层权重对上层权重一无所知，因而，大多数情况下，BP 算法是较

优的。然而，逐层 BP 有一个缺点：一些隐含层节点可能在训练收敛后处于饱和状态，因此，当

新的隐含层加入训练时，很难进行更新。为了解决这个问题，我们可以是用数据的

来进行训

练。

混合式预训练

前面提到过生成式预训练和监督式预训练，自然想到将二者合并。已经证明生成式预训练有

助于训练深层结构。然而，随着深度的增加，鉴别式预训练同样表现的很好，甚至更好。混合预

训练则要优于二者。我们已经注意到，当训练集足够大时，预训练就变得不那么重要了。

丢弃式预训练

可以把 dropout 视为通过随机丢弃神经元来减小 DNN 容量的方法，也可以把 dropout 视为

一种打包技术，它可以对大量绑定参数的模型做平均，换句话所，与不适用 dropout 的 DNN 相

比，dropout 能够生成更加平滑的目标平面，与一个陡峭的目标平面相比，一个平滑的目标平面

有较少的劣性局部最优点，这样，不容易陷入局部极小点。这启发我们可以使用 dropout 预训练

快速找到一个较好的起始点，然后不用 dropout 来微调 DNN。

1.2.4 高斯 RBM

前面讨论的 BM、RBM、DBN 和 DBM 其输入数据都要求是 01 二值数据，并且网络中的

神经元状态都是 01 随机变量，即伯努利分布。下面将介绍一些实值 RBM，其概率取值不再是

01，而是实值。

http://www.ma-xy.com 11 http://www.ma-xy.com

http://www.ma-xy.com

1.2 深度玻尔兹曼机 DBM 第一章深度学习

高斯-伯努利 RBM 在伯努利 RBM 中，条件概率 p(h|v), p(v|h) 定义为

p(h|v) = σ(vW + a)

p(v|h) = σ(W

h + b)

现在将

改为高斯分布，即

p(v|h) = N(v|W h, β

−1

)

其中：β

−1

为协方差矩阵，是一个对角矩阵。注意，这里我们仅将 v 层改为高斯分布，h 层仍为

伯努利分布。对上面的分布取对数，有

log N(v|W h, β

−1

) = −

(v − W h)

β(v − W h) + f (β)

其中：f 封装了所有参数，但不包含模型中的随机变量。我们可以忽略 f ，因为它唯一的作用是

归一化分布。如果在能量函数中包含 log N 中涉及到 v 的所有项，并且不添加其它涉及 v 的项，

那么，我们的能量函数就能表示想要的条件分布 p(v|h)。其它条件分布 p(h|v) 比较自由。注意到

log N 中包含一项

βW h

该项中已经包含 h

, h

项，这一项不能被包含在其中，因为它对应着隐含层单元的边，如果包含

这些项，将得到一个线性因子模型，而不是 RBM。在 RBM 中，我们简略的去掉 h

, h

的交叉

项，并且忽略这些想不改变条件分布 p(v|h)。如果我们使用精确地对角矩阵 β

−1

，会发现对于每

个隐含层神经元 h

，有



如果在能量函数中包含此项，则当该单元的权重较大且以高进度连接到可见单元时，偏置 h

将自动关闭，是否包含该项不影响模型可以表示的分布族，但它会影响模型的学习动态，包含它

可以帮助隐含层神经元保持合理激活。因此，在高斯-伯努利 RBM 中，能量函数定义为

E(v, h) =

(β ⊙ v) − (v ⊙ β)

W h − a

并且，我们还可以添加额外项。注意到，上面并没有在可视层 v 中添加偏置。关于如何确定 β

−1

，

可以根据样本数据给出，也可以通过模型估计出。

条件协方差无向模型

虽然高斯 RBM 已经成为实值数据的标准能量模型，但 2010.Ranzato 认为，高斯 RBM 不

能很好的适应某些类型的实值数据中存在的统计变化，特别是自然图像。图像中的大多数有用的

信息在于像素之间的关系，而不是原始像素值。由于高斯 RBM 反对给定 h 的输入 v 的改建均值

建模，所以它不能捕获条件协方差信息。为了解决这一问题，Ranzato 提出 mean and covariance

RBM(mcRBM)、mean product of student-distribution(mPoT) 和 pike and slab RBM(ssRBM)。

http://www.ma-xy.com 12 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.2 深度玻尔兹曼机 DBM

mcRBM mcRBM 使用隐含层神经元单独的编码所有可视层神经元的条件均值和协方差。具

体来所，mvRBM 的隐含层分成两组：均值神经元和协方差神经元。对条件均值建模的那组神经

元是简单的高斯 RBM，另一半是协方差 RBM(Ranzato.2010)。对条件协方差的结构进行如下建

模：将 h 分为二值均值神经元 h

(m)

和二值协方差神经元 h

(c)

，mcRBM 的能量函数定义为二者

的组合

(x, h

(m)

, h

(c)

) = E

(x, h

(m)

) + E

(x, h

(c)

)

其中：E

为高斯-伯努利 RBM 的能量函数

(x, h

(m)

) =

x −



·j

(m)

−



(m)h

(m)

为 cRBM 的能量函数

(x, h

(c)

) =



(c)



(j)



−



(c)

参数 r

(j)

是与 h

(j)

关联的协方差权重向量，a

(c)

是一个协方差偏置向量。

组合后的能量函数定义的联合分布为

(x, h

(m)

, h

(c)

) =

exp{−E

(x, h

(m)

, h

(c)

)}

给定 h

(m)

和 h

(c)

后，关于数据的条件分布为 (多元高斯分布)

(x|h

(m)

, h

(c)

) = N





x|h





·j

(m)



, C

x|h



注意，协方差矩阵 C

x|h

= (



(c)

(j)

(j)T

+ I)

−1

是非对角矩阵，且 W 是与对条件均值建模的

高斯 RBM 相关联的权重矩阵，对于非对角的条件协方差接哦古，难以通过对比散度 (CD) 或持

续对比散度 (PCD) 来训练 mcRBM。CD 和 PCD 要从 x, h

(m)

, h

(c)

的联合分布中采样，这在标

准 RBM 中是通过吉布斯在条件分布上采样实现的，但是在 mcRBM 中，从 P

(x|h

(m)

, h

(c)

) 中

抽样需要在学习的每个迭代步中计算 (C

)

−1

。当样本数据很大时，这是不易的。2010.Ranzato

和

Hinton

通过使用

mcRBM

自由能上的哈密顿混合蒙特卡罗直接从边缘分布

(

)

中采样。

注：自由能 FreeEnergy(x) 定义为

F reeEnergy(x) = −log



−E(x,h)

学生 t 分布均值乘积模型 mPoT 模型是由 2010.Ranzato 以类似 mcRBM 扩展 cRBM 的方式

扩展了 PoT 模型 (2003.Welling)。与 mcRBM 一样，样本上的 PoT 条件分布为多元高斯分布，

具有非对角的协方差；与

mcRBM

不同的是，隐含变量的补充条件分布是由条件独立的

Gamma

分布给出的。mPoT 的能量函数为

mP oT



x, h

(m)

, h

(c)



= E



x, h

(m)







(c)



1 +



(j)







1 − r

(j)



log h

(c)



http://www.ma-xy.com 13 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

其中：r

(j)

是与神经元 h

(c)

相关联的协方差权重向量。和 mcRBM 一样，mPoT 也无法从非对角

高斯条件分布 P

mP oT

(x|h

(m)

, h

(c)

) 中采样，Ranzato etal(2010) 同样采用哈密顿混合蒙特卡洛直

接从边际分布 p(x) 中采样。

1.3 自动编码器 AE

1.3.1 基础自动编码器 AE

我们从主成分分析 PCA 谈起 (不详，可以参考其它的机器学习书籍或者多元统计教材)。设

共有 n 个变量和 m 个样本，样本集为 S = {x

, x

, . . . , x

}，x

= (x

, x

, . . . , x

) ∈ R

。主成

分分析的目标是 (仅对无标签数据而言)：

= w

+ w

+ ··· + w



i=1

= w

+ w

+ ··· + w



i=1

= w

+ w

+ ··· + w



i=1

换句话说，我们对原本的 n 个变量进行了 n 次 (不同的) 线性变换，重新得到了 n 个变量 (成

分)h

(i = 1, 2, . . . , n)，由于要在 n 个 h

中挑去一部分重要的 h

，所以叫做主成分。可以对原始

变量 x = (x

, x

, . . . , x

) 进行任意的线性变换，显然不能这么做，我们希望 h

= w

x 的方差尽

可能大，而且各个 h

之间相互独立，由于

V ar(h

) = V ar(w

x) = w

Σw

其中：Σ 为 x 的协方差矩阵。而对于 ∀c，有

V ar(cw

x) = cw

Σw

c = c

Σw

如果不对 w

加以限制，则 V ar(h

) 可以任意增大，问题将变得没有意义。为此，我们要求：¬

= 1 i = 1, 2, . . . , n

即

+ w

+ ··· + w

= 1 i = 1, 2, . . . , n

h

是 x

, . . . , x

的线性组合中方差最大的，h

为 x 线性组合的方差第二大，且 h

与 h

不相

关 . . . ，称 h

, h

, . . . , h

为 x

, x

, . . . , x

的 n 个主成分。可以将 PCA 表示成如图 (1.8) 网络结

构

http://www.ma-xy.com 14 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

图 1.8: PCA 网络结构示意图

将 PCA 写成矩阵的形式，有

h = W

样本数据 X 是多大，返回的 n 个主成分 h 的数据矩阵 H 就是多大。我们说这些主成分

, h

, . . . , h

中包含了 x 的所有信息，h

是主要成分，h

是第二主要成分。我们自然希望

通过 h 来还原 x，如果考虑所有主成分，则

x = W

−1

这样就把 x 还原回来了，无损失还原，x 还是 x。但是，既然 PCA 叫做主成分，我们自然希望

去掉一些成分，仅保留少量的主成分。这样，还原回来的 x 不再是原本的 x，但是其主要特征还

在。这里，我们打算用 n

< n 个主成分来还原 x，还原回来的 x 记为 ˆx，显然 x 和 ˆx 不相等。

设从 h 到 ˆx 的映射为 ˆx = g(h)，画出其网络结构，如图 (1.9)

图 1.9: PCA 网络结构示意图

其中：输入层 x 有 n 个神经元，输出层 ˆx 有 n 个神经元，隐含层/主成分层 h 有 n

< n 个

神经元。输入层到隐含层的权重为 W ，隐含层到输出层的权重为 V ，阈值分别为 a, b。

主成分分析是对变量 x 的有损是压缩与还原的过程：x

压缩

−−→ h

还原

−−→ ˆx。或者说 PCA 是编码和

解码过程：将 x 编码到低维空间 h，在解码到高维空间 ˆx。并且，值得一提的是，如果 x

, x

, . . . x

之间不相关，只要 n

< n，就不能完全还原 x。现在，将这种思想一般化：编码解码。自动编码

器 AE 即是基于这种思想的神经网络。

自动编码器即对自身 x 进行编码解码后还原到 x。当然，像上面分析的那样，如果对 h 不做

任何约束，那么 ˆx = g(h) = g(f(x)) 是没有任何意义的，因为总会存在映射 f ，将 x 编码解码后

http://www.ma-xy.com 15 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

还原到 x。但如果我们对隐含层/特征层 h 加以约束，就会使 h 尽可能保留 x 的特征，以便于还

原。使用上面的网络格式

h = f(W

x + a)

ˆx = g(V

h + b)

其中：f 为编码器，g 为解码器。进一步，可以写为

ˆx = g(f (x))

由于输入 x 和输出 ˆx 的大小相同，我们将 AE 的网络结构进行折叠，折叠前后的网络结构如图

(1.10) 所示

图 1.10: AE 折叠的网络结构

AE 的网络结构已经建立起来了，下面的工作就是求解编码器 f 和解码器 g。这里的函数

f, g 是事先确定的，所以我们的目标是求 W, V, a, b。我们仍然假设有样本集 S = {x

, x

, . . . , x

}，

= (x

, x

, . . . , x

) ∈ R

。此数据为无标签/无目标的用于无监督的数据。像 BP 神经网络那

样，我们自然想到：求 θ ≜ (W, V, a, b)，来使“离差平方和”尽可能小

min

J(W, V, a, b) =



k=1

||x

− ˆx

|| =



k=1

注意到，这里的离差 e 是一个和 x 同大小的矩阵，e

为 e 的第 k 行，是一个向量。当然，我们

可以将目标 J(θ) 进行正则化，有

min

J(W, V, a, b) =



k=1

||x

− ˆx

|| +

||W ||

||V ||

我们将上述目标一般化，有

min

J(θ) =



k=1

ℓ(x

, ˆx

) + Ω(θ) = L(x, ˆx) + Ω(θ)

其中：ℓ 为损失函数，Ω(θ) 为正则项/罚项。

注：1. 对 h 的要求：可以令 n

< n，也可以要求 h 具有稀疏性；2. 此网络深度可以像 BP 网络

那样加深，同样，也可以对其进行堆积。

下面来求上述目标 J(θ)。从自动编码器的网络结构来看，其网络层数明显可以加深。我们设

其层数为 L，第 l 层的权重为 W

, l = 1, 2, . . . , L，第 l 层的阈值为 b

, l = 2, 3, . . . , L。各层神经

http://www.ma-xy.com 16 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

元数目为 n

, l = 1, 2, . . . , L，且 n

= n

= n。优化目标为

min

J(W, b) =



k=1

||x

− ˆx



l=1

||W

将 J 关于 θ 求导，有

∂J

∂θ



k=1

∂

∂θ

||x

− ˆx



l=1

∂

∂θ

||W

我们来看

∂

∂θ

||x

− ˆx

∂

∂θ



j=1

− ˆx

)

其解法与前面的 BP 神经网络相似，这里就不再介绍了。

1.3.2

稀疏自动编码器

Sparse AE

在前面的 AE 中，要求 n

< n，现在考虑 n

⩾ n。对此，如果不加限制，则编码器不能很

好的工作，所以要对 h 加以限制/约束。我们给 h 中神经元加上稀疏约束，具体而言，当神经元

的输出接近 1 的时候，我们认为它被激活，而输出值接近 0 的时候，它被限制。我们使 h 中的

神经元大部分时间都被限制，此即为 h 的稀疏性约束。设 f 为 sigmoid(如果是 tanh，则当输出

为-1 时神经元被限制)，记稀疏性惩罚为 Ω(h)，则目标变为

sparse

(W, b) = J(W, b) + Ω(h)

其中：如果仅考虑一个隐含层 h，则 W = (W

(1)

, W

(2)

)，b = (b

(1)

, b

)。

用 a

表示隐含层神经元 j 得到激活度 (输出)，但这并未标明是哪一个样本 x

带来的激活

度 (每输入一个样本，都会有一个神经元 j 都会有一个激活度)。所以，我们用 a

) 表示样本

带来的激活度。进一步，用

ˆρ



k=1



)



表示 h 的第 j 个神经元的样本平均激活度。我们可以近似的加入一些限制，比如

ˆρ

= ρ

其中：ρ 为稀疏性常数，一般设置为 0.05。换句话说，我们想让 j 的平均激活度为 0.05。为了满

足这一要求，隐含层 j 的激活度庇护接近于 0。现在，我们写出稀疏性罚因子 Ω(h) 的具体形式



j=1



ρ log

ˆρ

+ (1 − ρ) log

1 − ρ

1 − ˆρ



http://www.ma-xy.com 17 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

注意，我们仅考虑一个隐含层的 AE，n

为隐含层神经元个数。其实，上式是一个以 ρ 为均值和

一个以 ˆρ

为均值的 2 个伯努利随机变量之间的相对熵

KL(ρ||ˆρ

) =



ρ log

ˆρ

+ (1 − ρ) log

1 − ρ

1 − ˆρ



在 KL 中，当 ˆρ

= ρ 时，它达到最小值 0，而当 ˆρ

靠近 0 或者 1 时，相对熵 KL 会变的非常

大。所以这个 Ω(h) 是有效的，于是目标写为

sparse

(W, b) = J(W, b) + Ω(h)



k=1

||x

− ˆx



j=1

(

)

注意；上面的目标中不包含正则项，或者说 KL 就是正则项。现在求 J

sparse

的导数，J

sparse

求

导由两部分组成：一个是 J (W, b) 求导，一个是 KL 求导。J(W, b) 的求导和 BP 相似，所以下

面主要介绍 KL 的求导。

记

(

W, b

) =



j=1

(

)

，我们要求导

∂S(W, b)

∂W

(l)

∂S(W, b)

∂b

(l)

首先，我们将 S(W, b) 展开，有

S(W, b) =



j=1

(

) =



j=1



ρ log

ˆρ

+ (1 − ρ) log

1 − ρ

1 − ˆρ



其中：

ˆρ



k=1

) =



k=1







i=1

(1)

+ b

(1)





由上式可知：

1. 当 l = 1 时，

∂S(W,b)

∂W

(l)

= 0,

∂S(W,b)

∂b

(l)

= 0；

∂S(W, b)

∂W

(l)

∂

∂W

(l)



j=1

KL(ρ||ˆρ

) =

∂KL(ρ||ˆρ

)

∂W

(l)

∂S(W, b)

∂b

(l)

∂

∂b

(l)



j=1

KL(ρ||ˆρ

) =

∂KL(ρ||ˆρ

)

∂b

(l)

http://www.ma-xy.com 18 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

由上述两条，我们有

∂S(W, b)

∂W

(1)

∂KL(ρ||ˆρ

)

∂W

(1)

∂

∂W

(1)



ρ log

ˆρ

+ (1 − ρ) log

1 − ρ

1 − ˆρ



∂

∂W

(1)



ρ(log ρ − log ˆρ

) + (1 − ρ)[log(1 − ρ) − log(1 − ˆρ

)]



= ρ



0 −

ˆρ

∂ ˆρ

∂W

(1)



(1 − ρ)



0 +

1 − ˆρ

∂ ˆρ

∂W

(1)





−

ˆρ

1 − ρ

1 − ˆρ



∂ ˆρ

∂W

(1)

类似的，有

∂S(W, b)

∂b

(1)



−

ˆρ

1 − ρ

1 − ˆρ



∂ ˆρ

∂b

(1)

接下来，只需要求出 ˆρ

的导数即可。由 ˆρ

的计算公式，我们有

ˆρ



k=1

) =



k=1







i=1

(1)

+ b

(1)





为书写方便，令

(2)

= z

(2)

) =



i=1

(1)

+ b

(1)

) = f



(2)



于是有

∂ ˆρ

∂W

(1)



k=1

′



(2)



∂z

(2)

∂W

(1)



k=1

′



(2)



类似的，有

∂ ˆρ

∂b

(1)



k=1

′



(2)



∂z

(2)

∂b

(1)



k=1

′



(2)



至此，求导工作结束。作为练习，可以将上述内容写为矩阵形式。

http://www.ma-xy.com 19 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

1.3.3 降噪自动编码器 Denoising AE

Denoise AE 由 Vincent35于 2008 年提出。其主要思想是：首先，对样本数据 S = {x

}

k=1

加入噪声。然后，基于有噪声的输入向量 (样本) 做编码解码。要求解码后的向量尽可能保持在

原输入向量周围。如果 AE 对干扰后的数据都能很好的还原，则此网络具有很好的鲁棒性。

设原始数据为 x，加入噪声后的输入为 ˜x = x + noise，然后将 ˜x 通过编码函数 f 映射到 h，

在解码 h 到 ˆx = g(h)，表达式写为

h = f(˜x) = σ(W ˜x + a)

ˆx = g(h) = σ(V h + b)

损失函数用 ˆx 与 x 来定义，而非 ˆx 与 ˜x，有

DAE

(W, b) =



k=1

ℓ(x

, ˆx

)

其中：W = (W

(1)

, W

(2)

) = (W, V )。Denoise AE 的关键是对输入 x 加干扰，目前常用的干扰有

2 种：¬

˜x = x + ε

ε ∼ N(0, σ

就单一样本而言，以概率 p 将输入向量 x

的部分量设置为 0，其余不变。

注：前面的 AE 我们都是采用离差平方和最小，还可以考虑极大似然方法，这一点很重要！

1.3.4 边缘降噪自动编码器 mDAE

Chen.M 于 2014 年开发了边缘降噪自动编码器 (Marginalized Denoising AE,mDAE)7。在

Denoise AE 中，目标函数定义为

DAE

(θ) =



k=1

ℓ



, g(f(˜x))



令上式中的 g(f (˜x)) = f

(˜x)(这里的 f

不是 f )，µ

= E

p(x|˜x)

[˜x]，其中：˜x 为 x 的干扰项，µ

是

˜x 的期望值。我们的目标是



k=1



j=1

ℓ



, f



˜x



当隐含层 h 的神经元个数很多时，会使得学习速度变得很慢。上面的目标本质是



k=1

p(˜x

)

[ℓ(x

, f

(˜x

))]

将损失函数 ℓ 在 ˜x 处二阶泰勒展开，有

ℓ



, f

(˜x

)



≈ ℓ(x, f

(µ

)) + (˜x − µ

)

∇

˜x

ℓ +

(˜x − µ

)

∇

˜x

ℓ · (˜x − µ

)

http://www.ma-xy.com 20 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

其中：∇

˜x

ℓ, ∇

˜x

ℓ 是 ℓ 在 ˜x 处的一阶导数和二阶导数。

对 ˜x 取期望

E[ℓ(x, f

(˜x))] ≈ ℓ(x, f

(µ

)) +



E[(˜x − µ

)(˜x − µ

)

]∇

˜x

ℓ



其中：E[˜x] = µ

。令 Σ

= E[(˜x − µ

)(˜x − µ

)

]，则上式写为

E[ℓ(x, f

(˜x))] ≈ ℓ(x, f

(µ

)) +



∇

ℓ



上式即为损失函数。它只需要基于干扰项 ˜x 的一阶泰勒展开和二阶泰勒展开即可。并且，在 x 中

添加噪声时，由于每一个样本是单独加入噪声的，所以 Σ

可简化为对角矩阵。因此，只需要计

算 Hesse 矩阵 ∇

˜x

ℓ 的对角项即可。

Hesse 矩阵的缩放依赖于数据的维度，但是对角矩阵的缩放是线性的，这种简化可以节省计

算量，特别是对于高维数据而言。我们设第 k 个 Hessi 矩阵的对角为

∂

ℓ

∂ ˜x



∂z

∂ ˜x



∂

ℓ

∂z

∂ ˜x



∂ℓ

∂z



∂

∂ ˜x

其中：z 为隐含层的输出。按 LeCun(1998) 提出的方法，将上式的最后一项省略，前一项是一个

二次项，矩阵 ∇

ℓ =

∂

ℓ

∂z

表示 ℓ 关于 z 的 Hesse 矩阵，并且这个矩阵是正定的，所以可以利用

正定性进一步简化矩阵的非负对角项。简化之后，该 Hessi 矩阵的对角项计算公式为

∂

ℓ

∂ ˜x

≈



j=1

∂

ℓ

∂z



∂z

∂ ˜x



其中：n

为隐含层神经元个数；z

为 h 中第 j 个神经元的输出。经过上面的简化计算之后，

mDAE 的最终目标函数为

mDAE

(θ) = L(x, f

(µ

)) +



k=1



j=1

∂

ℓ

∂z



∂z

∂ ˜x



其中：σ

是第 k 个样本 x

干扰的方差，也即 Σ

对角矩阵的第 k 个元素。

1.3.5 收缩自动编码器 Contractive AE

CAE27由 Salah Rifai 等于 2011 年提出。对于一般的 AE，在目标/损失函数后加正则项，其

目标函数变为

Ω

(θ) = L(x, ˆx) + Ω(θ) =



k=1

ℓ(x

, ˆx

) + Ω(θ)

其中：Ω(θ) 为参数 θ 的正则项，网络的编码解码过程为

h = f(W x

+ a)

= g(V h + b) = g(V f (W x

+ a) + b) = g(f (x

))

http://www.ma-xy.com 21 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

我们这里直接对 θ 进行惩罚，一般而言，Ω(θ) =



。

现在，仍然对

隐含层进行处理，令

Ω(h) = ||J

(x)||





∂h

(x)



其中：J

(x) 是隐含层输出值关于权重 W 的 Jacobi 矩阵，||J

(x)||

表示该 Jacobi 矩阵的 F 范

数的平方，即矩阵中的每个元素求平方再求和，具体写为

||J

(x)||



i=1

(1 − h

))



j=1

其计算复杂度为 O(n × n

)。此时的目标函数变为

CAE

(θ) =



k=1



ℓ



, g(f(x

))



+ λ||J

)||



解释：去噪自动编码器 DAE 和 CAE 之间存在一定的联系，Alian 和 Bengio(2013) 指出：

在引入小的高斯噪声时，DAE 的重构误差与 CAE 的收缩惩罚因子 Ω(h) 是等价的，也就是说，

CAE 具有抵抗微小干扰的能力。CAE 只是局部收缩，对样本 x 的所有扰动都映射到 f (x) 的附

近。从全局来看，2 个不同点 x, x

′

，会分别被映射到远离原点的两个点 f(x), f(x

′

)。CAE 对数据

中的小扰动敏感性较小，且重构特征不受惩罚因子的影响。但是 CAE 只对数据中极小扰动有鲁

棒性。为此，我们可以进一步惩罚不同阶的偏差，将其目标函数改为

CAE+h



k=1

ℓ



, g(f(x

))



+ λ||J

(x)||

+ γE

[||J(x) − J

(x + ε)||

]

其中：ε ∼ N(0, σ

I)，γ, λ 为权重参数，x + ε = ˜x。

经过上面的改进，CAE-h 的鲁棒性进一步提高。但由于基于鲁棒理论的 CAE 较为复杂，构

建训练的难度较大，因而针对 CAE 的引用较少。

1.3.6 堆积自动编码器 Stacked AE

1986.Rumelhart 提出自动编码器 AE；2006.Hinton 提出深度置信网络 DBN；2007.Bengio

提出稀疏自动编码器；2008.Vincont 提出去噪自动编码器；2010.Salah 提出收缩自动编码器；

2011.Jonathan 提出卷积自动编码器；2013.Telmo 研究了不同代价函数训练得到的深度堆积自

动编码器的性能。

回忆一下我们是怎样搭建前 2 个深度网络 DBN 和 DBM 的？DBM 是一个个小的 RBM 模

型堆积而成，对样本进行学习时，先训练每个小的 RBM，然后把它们组合在一起进行微调。即

Henton 提出的贪心逐层训练算法。其实，AE 和 RBM 存在很多相似的地方：它们都可以用来生

成数据 (对样本分布进行估计)，并且 AE 也可以表示成 RBM 的网络形式，如图 (1.11)

http://www.ma-xy.com 22 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

图 1.11: AE 折叠成 RBM 的网络形式

那么自然想：能否将 AE 堆积形成深度网络？可以的，把 AE 堆积而成的深度网络称为 Deep

AE 或者 stacked AE(注意：这里的 AE 可以是 AE 的衍生模型，如 CAE 和后面介绍的 VAE)。

DBM 是在 RBM 的隐含层 h 后再添加网络层，那么，AE 应该在 h 层/特征层还是在 ˆx 层

后再加网络层呢？即下一个 AE 的输入是上一个 AE 的 h 层还是 ˆx 层？在回答这个问题之前，

我们来记一下 AE

h = f(W x + a)

ˆx = g(V h + b)

一般情况下，ˆx 不是 x 的精确重构，它只是在满足一定分布的条件概率 p(x|ˆx) 下，最大程度的

接近 x。因此，AE 的目标不仅可以是离差平方和，还可以用极大似然估计，特别是在去噪自动

编码器中，ˆx 是有明显 (条件) 分布的。并且

ℓ(x, ˆx) ∝ −log(x|ˆx)

如果 x ∈ R

，则 x|ˆx ∼ N(ˆx, σ

I)，这时可以采用离差平方和作为目标 ||x − ˆx||

；如果

x ∈ {0, 1}

，则 x|ˆx ∼ B(ˆx)，这时就不能用 ||x − ˆx|| 作为目标，就要使用交叉熵等 (这个在

logistics 回归中有介绍)

ℓ(x, ˆx) = −



log ˆx

+ (1 − x

) log(1 − ˆx

)] = H(B(x)||B(ˆx))

现在考虑我们的问题：下一个 AE 的输入是上一个 AE 的 h 层还是 ˆx 层？(1) 如果是将隐含

层 h 作为下一层的输入，那么，预训练 (无监督) 逐层训练应该为：将第一个 AE 训练好后，有

(1)

, V

(1)

, a

(1)

, b

(1)

；然后，将样本再次输入到第一个 AE 中，每个样本 x

都会有一个 h

, ˆx

，我

们把 h = {h

}

k=1

作为输入，输入到第二个 AE 中进行训练，训练后有 W

(2)

, V

(2)

, a

(2)

, b

(2)

；然

后将 h 在此输入，如此下去，直到最后一层。这样，就完成了 stacked AE 的预训练，也就得到

了深层网络的初始权重和阈值。如果要进行分类任务，可以在预训练之后，运用 BP 等算法对网

络参数进行微调 (联合训练)。如图 (1.12) 所示

图

1.12: SAE

的训练过程图

http://www.ma-xy.com 23 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

注：如果设置 V

= W ，那么网络的训练会变得简单易行。(2) 如果是将输出层 ˆx 作为下一

个 AE 的输入，则其深层网络如图 (1.13) 所示

图 1.13: AE 第二种堆积网络

其训练过程和 (1) 的情况是相似的。

1.3.7 变分自动编码器 VAE

记样本数据为 D = {x

, x

, . . . , x

}，D 是域 S ∈ R

中的采样

，x

= (x

, x

, . . . , x

) ∈ R

称为样本点。并且，我们假设是 n 随机变量 x = (x

, x

, . . . , x

)，所以 S 上应该有这 n 个随机

变量的分布函数 p(x)。

假设 AE 的隐含层 z

∆

= h 有 n

个神经元，神经元之间可以互相连接，也可以不连接 (独立)。

记全体隐含层神经元为 z = (z

, z

, . . . , z

)。假设 AE 网络的参数 θ 已经给出，我们可以说：给

定 x 后就有了 z，或者给定 z 之后就有了 x，因为二者之间是一个编码 f 和解码 g 的过程

z = f (x; θ

′

)

ˆx = g(z; θ

′′

)

令 θ

∆

= (θ

′

, θ

′′

)

∆

= (W, V, a, b)。值得一提的是，我们可以将 f, g 扩展为任意函数形式，比如 MLP,

CNN 等网络形式。也可以将 z 设置为任意结构，z 中的神经元之间可以连接、不连接以及部分

连接，这样 AE 模型的范围就变得大了许多。

AE 网络中的参数 θ 是待求的，关于 θ 的求解，大致可分为 3 个方向：¬基于参数估计得极

大似然估计 ML；基于贝叶斯方法的最大后验估计 MAP；®离差平方最小的最小二乘 OLS。三

者的共同之处是，它们都是一个优化问题。前面我们讨论了®离差平方和方法，下面先来看极大

似然估计。

在假设样本独立同分布情况下，如果已经知道了单一样本 x

的分布 p

)

∆

= p(x

|θ)，可以

直接写出极大似然的目标

max

J(θ) = log P (x|θ) = log



k=1

p(x

; θ) =



log p(x

; θ)

如果样本的分布 p(x

; θ) 形式已知，直接求导即可。但是现在的问题是：p(x; θ) 不易求解，但是

存在一个潜随机变量 z，p(x, z; θ) 是可求的 (就像在 RBM 中遇到的那样)。

我们可以在实值 R

上讨论 x，也可以在 {0, 1}

上进行讨论。

http://www.ma-xy.com 24 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

抛弃我们的模型，如果已知 p(x, z)，如何求 p(x)？从联合分布 p(x, z) 中采样 {x

, z

}，然后

求和/积即可。回到我们的模型中，发现只有部分样本 {x

}，称 {x

, z

}

k=1

为整体样本，{x

}

k=1

为部分样本。关于潜变量 z 的取值，仅来源于后验概率分布 p(z|x; θ)(即我们建立的模型)。我

们记 x 的概率分布为 p(x; θ)，z 的概率分布为 q(z; θ)，联合概率分布为 p(x, z; θ)，条件分布为

p(x|z; θ) 和 p(z|x; θ)。

既然 p(x; θ) 不易找到，考虑将其用联合分布表示

p(x; θ) =



p(x, z; θ)dz

于是，单一样本的 x

∆

= x

最大似然目标为

J(θ) = log p(x; θ) =



p(x, z; θ)dz

由条件概率关系

p(x, z) = p(x)p(z|x) = q(z)p(x|z)

并且我们求 p(x)，可以得到

J(θ) = log



p(x, z; θ)dz

= log



q(z)p(x|z)dz

注意：上面的概率分布函数都忽略了参数 θ。本应写为 p(x; θ), q(z; θ)，并且，如果在贝叶斯框架，

则写为 p(x|θ ), q(z|θ)。上式的难点在于 q(z) 和 p(x|z)。下面介绍 EM 算法和变分估计，并用这

两种方法求解上述问题。

EM 算法

EM 算法是 Dempster 等于 1997 年提出的，用于求解含有潜变量 z

∆

= h 的参数极大似然估

计或最大后验概率估计。我们假设在 t 次迭代后，参数值为 θ

，现在，我们要求 θ

t+1

。我们自然

希望新的参数 θ 能使目标 J (θ) 增加，即 J(θ) > J(θ

)。为此，我们考虑二者的差

J(θ) − J(θ

) = log



q(z)p(x|z)dz − log p(x; θ

) (1.1)

引理 (Jensen 不等式) 设 φ 为凸函数，则

φ(E(x)) ⩽ E(φ(x)) ⇔ φ





i=1

g(x

)λ



⩽



i=1

φ(g(x

))λ

其中：x = (x

, x

, . . . , x

)，



= 1，λ

⩾ 0。

http://www.ma-xy.com 25 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

注：Jensen 不等式给出了积分的凸函数值和凸函数的积分值之间的关系。其实，在 SVM 部分有

简单的介绍过 Jensen 不等式。

将 Jensen 不等式应用到 (1.1) 中，有

J(θ) − J(θ

) = log



q(z)p(x|z)dz − log p(x; θ

)

= log



p(z|x; θ

)

p(x|z)q(z)

p(z|x; θ

)

dt − log p(x; θ

)

⩾



p(z|x; θ

) log

p(x|z; θ)q(z; θ)

p(z|x; θ

)

dt − log p(x; θ

)



p(z|x; θ

) log

p(x|z; θ)q(z; θ)

p(z|x; θ

)p(x; θ

)

于是有

J(θ) ⩾ J(θ

) +



p(z|x; θ

) log

p(x|z; θ)q(z; θ)

p(z|x; θ

)p(x; θ

)

令

B(θ, θ

) = J(θ

) +



p(z|x; θ

) log

p(x|z; θ)q(z; θ)

p(z|x; θ

)p(x; θ

)

则 B(θ, θ

) 是目标 J(θ) 的下界，且由 B(θ

, θ

) = J(θ

) 可知，对于任意的 θ，如果 θ 使 B(θ , θ

) >

B(θ

, θ

)，则 J(θ) > J(θ

)。为了使 J(θ) 尽可能增大，选择 θ

t+1

是 B(θ, θ

) 最大。

t+1

= arg max

B(θ, θ

)

= arg max

J(θ

) +



p(z|x; θ

) log

p(x|z; θ)q(z; θ)

p(z|x; θ

)p(x; θ

)

= arg max



p(z|x; θ

) log p(x|z; θ)q(z; θ)dt

∆



p(z|x; θ

) log p(x, z; θ)dz

令

Q(θ, θ

) =



p(z|x; θ

) log p(x, z; θ)dz

∆



p(z|x; θ

) log p(x, z; θ)

Q 是完整数据 (x, z) 的对数似然函数 log p(x, z; θ) 的期望。可以给出如下的 EM 算法：

Step1. 初始化。D = {x

}

k=1

。初始网络 AE，初始参数 θ

，联合分布函数 p(x, z; θ)，迭代次数

t := 0，t

max

，容许误差 ε

, ε

。

Step2. 对第 t 次迭代，已经有了 θ

，现在来求 θ

t+1

。

1. E 步：计算概率 p(z|x; θ

)；

http://www.ma-xy.com 26 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

2. M 步：计算

Q(θ, θ

) =



p(z|x; θ

) log p(x, z; θ)dz

t+1

= arg max

Q(θ, θ

)

Step3. 终止条件。如果 ||θ

t+1

−θ

|| < ε

或者 ||Q

t+1

−Q

|| < ε

则终止；否则，则置 t := t + 1，

返回 Step2.

现在的问题是，如何求解 p(z|x; θ

)、p(x, z; θ) 以及



p log pdz？假设前面已经直达了 p(x, z; θ)

和 p(z|x; θ

)，现在的关键是如何求积分。我们用数值积分公式计算 Q(θ, θ

) 中的积分，有

Q(θ, θ

) ≈



i=1

log p(x, z

; θ)

其中：N 为 z

的样本数。这里涉及到按照某分布 p(z|x) 对 z 进行采样 {z

}

i=1

，我们可以采用

MCMC 等采样方法。

MCMC 采样 MCMC 适用于处理给定分布 p(z|x; θ

)，从中采样 z 的问题。由于马尔科夫

链能收敛到平稳分布，如果我们能够着一个转移矩阵为 P 的马氏链，使得该马氏链的平稳

分布恰好为 p(z|x; θ

)，那么，我们从任意的初始状态 z

出发，沿马氏链转移，得到一个转

移序列 {z

, z

, . . . , z

, z

n+1

. . . }。如果马氏链的第 n 步已经收敛了，就得到了 p(z|x) 的样本

, z

n+1

, . . . }。

这正是前面模拟退火算法或者 BM 网络的思路，由 Metropolis 于 1953 年提出。MCMC 采

样的关键点是如何构建转移矩阵 P ，使得平稳分布为 p(z|x; θ

)。下面，给出概率分布 p(x) 的

MCMC 采样：假设已经有了转移概率 q(x

, x

)(从状态 x

转移到 x

的概率)，以及接受概率

α(x

, x

)(以概率 α 接受这个转移)，则 MCMC 描述为 (2)

算法 2 MCMC for p(x)

1: 初始化：初始状态 X

= x

，t := 0，t

max

。

2: for 对 t = 1, 2, . . . 循环一下采样步骤 do

3: 第 t 时刻的马氏链状态为 X

= x

，采样 y ∼ q(x|x

)；

4: 从均匀分布中采样 u ∼ U(0, 1)；

5: 如果 u < α(x

, y) = p(y)q(x

|y)，则接受转移 x

→ y，即 X

t+1

= y，否则，不接受转移

t+1

= x

6: end for

Metropolis-Hastings 采样只是将上述算法中的 α(x

, y) 变为

α(x

, y) = min



p(y)q(x

|y)

p(x

)p(y|x

)

, 1



关于 MCMC 更多的介绍可以参考《高等数理统计》茆诗松 P441。

http://www.ma-xy.com 27 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

变分近似推断

将目标函数进行如下分解 (在 DBN 处有介绍)

J(θ) = log p(x; θ) = L(q, θ) + KL(q||p)

其中：

L(q, θ) =



q(z) log

p(x, z; θ)

q(z)

KL(q||p) = −



q(z) ln

p(z|x; θ)

q(z)

注意，上式中的 q(z) 的函数形式未知，所以 L(q, θ) 是一个关于 q 函数和参数 θ 的泛函。又因为

KL(q||p) ⩾ 0，当且仅当 q = p 时等号成立，所以，L(q, θ) 是目标 log p(x; θ) 的一个下界，只有

当 p = q 时，log p(x; θ) = L(q, θ)。

在上面的 EM 算法中，给定当前参数 θ

，¬在 E 步，我们求下界 L(q|θ

) 关于 q 取最大

值，即求函数 q 使 L(q, θ

) 最大。注意到 ln p(x; θ

) 不依赖于 q(z) 是一个定量，为 L(q, θ

) 的

上界，所以 L(q, θ

) 的最大值出现在 L(q, θ

) = ln p(x; θ

)。换句话说，出现在 KL(q||p) = 0 时，

即 q(z) = p(z|x; θ

) 时。这样，就找到了 q 使 L(q, θ

) 最大；在 M 步，q 函数保持不变，下界

L(q, θ) 关于 θ 进行最大化，从而得到 θ

t+1

。将 q = ln p(z|x; θ

) 带入 L(q, θ)，然后再关于 θ 最

大，有

L(q, θ) =



p(z|x; θ

) ln p(x, z|θ) −



p(z|x; θ

) ln p(z|x; θ

)

= Q(θ , θ

) + H(q)

这里的 Q(θ, θ

) 和 EM 算法中的一致，我们在 M 步中将其最大化。Q 是完整数据 (x, z) 的对数

似然函数的期望。如果 p(x, z; θ) 是由指数分布族的成员组成，或者由其乘积组成，例如 p(x, z)

是 n + n

元高斯分布，则 log 运算会抵消指数运算，从而使得 M 步通常比最大化 log p(x; θ) 要

容易的多。

下面介绍变分法的思想

ln p(x) = L(q) + KL(q||p)

其中：

L(q) =



q(z) ln

p(x, z)

q(z)

dz = E

q (z)



p(x, z)

q(z)



KL(q||p) = −



q(z) ln

p(z|x)

q(z)

与之前一样，求 q(z) 使 L(q) 最大，这等于求 q(z) 使 KL 最小。如果允许 q 为任意函数，那

么下界 L 的最大值出现在 KL 等于 0 的时候，即 q(z) = p(z|x)，然而，在实际的模型当中，往

往对 q(z) 有一定的要求。在函数域 Q 中寻找最优的 q(z) 来使 KL 距离最小。一个会有的想法是

http://www.ma-xy.com 28 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

q(z) ≈ p(z|x)，即找 p(z|x) 来近似充当 q(z)。在微分方程部分，常用参数化方法来处理泛函问题，

我们不在函数空间中寻找 q，而是在参数空间中寻找 q。现在，引入参数 ϕ，每一个具体的参数

ϕ 对应一个函数 q(z; ϕ)，于是求 q 就变为求 ϕ。将参数化的函数空间 Q 记为 Q = {q(z; ϕ)}，即

(z) 是某一分布族。

上面，无论是在 EM 算法还是在变分推断，都是在变量 x, z 或者所有样本 {x

} 上进行的，

下面，将在单独某一个样本 x

(或小批量样本) 中进行分析。

log p(x; θ) = log



k=1

p(x

; θ) =



k=1

log p

)

并且

log p

) = L(θ, ϕ; x

) + KL(q

(z|x

)||p

(z|x

))

其中：L(θ, ϕ; x

) 是 log p

) 的下界。我们的目标仍然是求参数 θ, ϕ，使下界 L(θ, ϕ; x

) 最大。

log p(x

) ⩾ L(θ, ϕ; x

) = E

(z|x

)



log p

, z) − log q

(z|x

)





(z|x

) log

, z)

(z|x

)

在 x 和 z 独立时，将 L(θ, ϕ; x

) 中的 p

, z) 拆分

, z) = p

(z|x

)

有

L =



(z|x

) log

(

)

(z|x

)



(z|x

) log

(z|x

)

(z|x

)

dz +



(z|x

) log p

)dz

= −KL(q

(z|x

)||p

(z|x

)) + E

(z|x

)



log p

|z)



(1.2)

¬对 L(1.2) 中的第一项。边界 L(θ, ϕ, x

) 包含 −KL (q

(z|x

)||p

(z|x

)) 项，这一项可以解

析的求出。我们在高斯情况下讨论：设 p

(z|x

) 为标准正态分布，p

(z|x

) = N (0, I)，q

(z|x

)

是正态分布，并且要求 q 的各维变量 (z

, z

, . . . , z

) 是相互独立的。q

(z|x

) 中的参数 ϕ 为

µ, σ(这里的 µ 为均值向量 µ = (µ

, µ

, . . . , µ

)，σ 也为方差向量 σ = (σ

, σ

, . . . , σ

)，下面的

µ, σ 都是向量哦)，随机变量 z

的分布是均值为 µ

，方差为 σ

的正态分布。因此



(z|x

) log p(z|x

)dz =



N(z; µ, σ

) log N(z; 0, I)dz

= −

log(2π) −



j=1

(µ

+ σ

)



(z|x

) log q

(z|x

)dz =



N(z; µ, σ

) log N(z; µ, σ

)dz

= −

log(2π) −



j=1

(1 + σ

)

http://www.ma-xy.com 29 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

最后，我们有

−KL(q

||p

) =



(z|x

) log

(z|x

)

(z|x

)



j=1



1 + log σ

− µ

− σ



通过上面的分析，我们得到了式 (1.2)L 中的第一项 −KL(q

||p

)。我们要求 θ, ϕ 使 L 最大，

第一项 −KL(q

||p

) 关于 θ, ϕ 的求导是没问题的，但是式 (1.2) 第二项 E

(z|x

)



log p

|z)



的

求导就有问题了，一般的 MCMC 求解梯度为

∇

(z)

[f(z)] = E

(z)



f(z)∇

(z)

log q

(z)



≈



l=1

f(z

)∇

)

log q

)

其中：L 为 z 的采样数，z

为样本，z

∼ q

(z|x

)。对每一个样本点 x

，z 都要有 L 次采样

∼ q

(z|x

) = N(µ, σ

)，这导致梯度估计量的方差非常大，并且，我们无法关于参数 ϕ 求导

(如果设 q

(z|x

) = N(µ, σ

)，则 ϕ

∆

= (µ, σ

)，则不能对 µ, σ 求导。)

以 p

(z|x

) − N(0, I)，q

(z|x

) = N(µ, σ

) 为示例，VAE 的网络结构如图 (1.14) 所示

图 1.14: VAE 网络结构示意图 1

对式 (1.2)L 中的第二项。由于 z 是采样而来的，z ∼ q(z|x) = N(µ, σ

)，因而 L 不能关于

∆

= (µ, σ) 求导。如果 z 是其它操作 (非采样操作，例如 z = (A + B)C 等)，那么求导是没问题

的。我们希望把采样 (∼) 这个随机操作变为某种确定性操作 (例如 z = g

(·))，可以进行如下确

定性变换

z = g

(ϵ, x)

其中：ϵ 是一个外来的随机变量，其概率分布为 p(ϵ)；g

(·) 是一个关于参数 ϕ 的向量值函数。

假设 z

, z

, . . . , z

之间相互独立，则

dz = dz

. . . dz



http://www.ma-xy.com 30 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

于是有

(z|x)dz

∆

= q

(z|x)



i=1

= p(ϵ)dϵ

于是



(z|x)f (z)dz =



p(ϵ)f(z)dϵ

将 z = g

(ϵ, x) 带入上式，有



(z|x)f (z)dz =



p(ϵ)f(g

(ϵ, x))dϵ

由此，我们就可对 L(1.2) 中的第二项



(z|x)f (z)dz 构建一个可微的估计量



(z|x)f (z)dz ≈



l=1

f(g

(x, ϵ

)) ϵ

∼ p(ϵ)

现在可以对上式求导了。例：我们用高斯分布作为示例，设 z ∼ p(z|x) = N(µ, σ

)，一个有效的

转化是 z = µ + σϵ，其中：ϵ ∼ N(0, 1)，因此

N(z;µ,σ

)

[f(z)] = E

N(ϵ;0,1)

[f(µ + σϵ)] ≈



l=1

f(µ + σϵ

)

其中：ϵ

∼ N (0, 1)。对于上面的这种“确定性变换”，我们自然考虑：哪些 q

(z|x) 可以进行可

微转换 g

(·) 呢？并且有 ϵ ∼ p(ϵ) 呢？关于这个问题，可以参考22P5。

上面的是在所有样本 x 上进行的，对于单一样本 x

，只要将 x 变为 x

即可。现在可以用

MCMC 来估计函数 f(z) 关于 q

(z|x

) 的期望了

(z|x

)

[f(z)] = E

p(ϵ)

[f(g

(ϵ, x

))] ≈



(

, x

))

其中：ϵ

∼ p(ϵ)。我们将这种确定性转换技术应用到下界 L(θ, ϕ; x

)。¬考虑下界 L 的第一个写

法

L(θ, ϕ; x

) = E

(z|x

)



log p

, z) − log q

(z|x

)



≈



l=1



log p

, z

) − log q

k,l

)



其中：z

k,l

= g

(ϵ

k,l

, x

)，ϵ

∼ p(ϵ)。记此估计量为

(θ, ϕ; x

)。

考虑下界 L 的第二个写法

L(θ, ϕ; x

) = −KL(q

(z|x

)||p

(z|x

)) + E

(z|x

)



log p

|z)



http://www.ma-xy.com 31 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

上式得 −KL 项在前面已经分析过了，可以对 µ, σ 求导，但后面的积分项 (期望值) 不行，我们

将确定性变换 z = g

(ϵ, x) 技术用上来，就变为

L(θ, ϕ; x

) = −KL(q

(z|x

)||p

(z|x

)) +



l=1

log p

k,l

)

其中：

k,l

= g

(ϵ

k,l

, x

)，ϵ

∼ p(ϵ)。我们记此估计量为

(θ, ϕ; x

)。

现在，

(θ, ϕ; x

) 和

(θ, ϕ; x

) 可以对 ϕ 求导了。上面是单一样本 x

，对于批量样本而

言，设 x

是从样本集中随机挑选的 M 个样本，则其估计量为

L(θ, ϕ; x

) ≈

(θ, ϕ; x

) =



k=1

L(θ, ϕ; x

)

批量样本的 SGVB 算法如下 (3)

算法 3 SGVB for VAE

1: 初始化：M，S = {x

}

k=1

，MC 链长 L = 1，初始参数 θ

, ϕ

，迭代次数 t，t

max

，容许误差

ε，学习率 η。

2: while 未达到终止条件 t > t

max

| ||θ

t+1

, ϕ

t+1

− θ

, ϕ

|| < ε do

3: 随机挑选 M 个样本 x

；

4: ϵ ∼ p(ϵ)；

5: g ← ∇

θ,ϕ

(θ, ϕ; x

, ϵ)；

6: θ, ϕ ← θ, ϕ + ηg

7: end while

仍然以 p

(z|x

) = N (0, I)，q

(z|x

) = N (µ, σ

) 为示例，经过确定性变化后，VAE 的网络

结构如图 (1.15) 所示

图 1.15: VAE 网络结构示意图 2

http://www.ma-xy.com 32 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

VAE 的梳理

下面来捋一下 VAE。假设 p

(z|x

) 为多元正态分布 N (0, I)；如果样本为实值，则设 p

(x|z)

为多维高斯分布，如果样本是 01 二值的，则设 p

(x|z) 为多维二项分布。假设 q

(z|x

) 是多维

高斯分布 N(µ

, σ

)，这里 µ

, σ

为向量，µ

= (µ

, µ

, . . . , µ

)。

对于某一个样本 x

，将 x

输入到 VAE 网络中，通过编码器 f ，可以得到其均值向量和方

差向量 µ

, σ

，于是，我们得到了 q

(z|x

)

(z|x

) = N(z; x

, σ

然后要在 q

(z|x

) 中选取 L 个样本，z

k,l

∼ q

(z|x

)，为了使其可导，我们用确定性转化技术

k,l

= g

, ϵ

) = µ

+ σ

⊙ ϵ

其中：ϵ

∼ N(0, I)；⊙ 是元素操作。于是，我们可以得到下界

L(θ, ϕ; x

) =



j=1



1 + log(σ

)

− (µ

)

− (σ

)





l=1

log p

k,l

)

关于 p

|z) 的计算，可以用 MLP 来充当 decoder：¬如果 x 是 01 二值的，则 p

(x|z) 为多维

伯努利分布，其 MLP 的结构如图 (1.16) 所示

图 1.16: MLP 充当解码器示意图 1

图 (1.16) 中的 ˆx 为

ˆx = f

tanh(W

z + b

) + b

)

令 θ

∆

= (W

, W

, b

)，tanh 和 f

为传递函数，于是，得到样本的概率为

log p

(x|z) =



i=1

log ˆx

+ (1 − ˆx

) log(1 − ˆx

)

如果 x 不是 01 变量，而是实值变量，设 p

(z|x) 为多维高斯分布。为多维伯努利分布，其 MLP

的结构如图 (1.17) 所示

图

1.17: MLP

充当解码器示意图

http://www.ma-xy.com 33 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

图 (1.17) 中的变量为

h = tanh(W

z + b

)

µ = W

h + b

log σ

h + b

log p

(x|z) = log N (x; µ, σ

将¬或中的 log

p(x|z) 变为单一样本的情况，有

log p

k,l

)

1.3.8 重要性加权自动编码器 IWAE

深层 VAE

Importance Weighted Autoencoders 是 Burda 等人于 2015 年提出的改进版的 VAE。在介

绍 IWVAE 之前，先来把 VAE 的层数加深。在前面的 VAE 中，只有一个随机层/隐含层 z，现

在，将随机层 z 加深到 I 层，即共有 I 个随机层，并且假设 p

i+1

) 为多维正态分布，于是

(z) = p

)

I−1



i=1

i+1

) = p

I−1

) . . . p

)

) = N(z

|0, I)

i+1

) = N(z

|µ

, σ

)

(x|z

) = N(x|µ(z

), σ

)) or p

(x|z

) = B(z|µ(z

))

其中：µ

, σ

是向量。上面是解码过程 (生成)，下面，给出在编码过程中模型的条件分布情况，仍

然假设 q

i−1

) 是高斯分布

q(z|x) = q

|x)



i=1

i−1

)

|x) = N(z

|µ(x), σ

(x))

i−1

) = N(z

|µ(z

i−1

), σ

i−1

)) i = 2, 3, . . . , I

我们继续讨论目标函数 (对数似然) 的变分下界，由 Jensen 不等式，有

log p(x) = log E

(z|x)



p(x, z)

(z|x)



⩾ E

(z|x)



log

p(x, z)

(z|x)



= L(θ , ϕ ; x)

或者是

log p(x) = KL(q

(z|x)||p(z|x)) + L(θ, ϕ; x)

将 L(θ, ϕ; x) 关于 θ, ϕ 求导，由于随机采样，导致导数不可求，我们采用确定性转化技术

(reparameterization trick)：原本的采样过程如图 (1.18) 所示

http://www.ma-xy.com 34 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

图 1.18: IWVAE 随机采样

∼ q

i−1

) = N(z

|µ(z

i−1

), σ

i−1

))

其中：l = 1, 2, . . . , L，L 表示第 i 层 z

的采样数。经过确定性转化，采样过程如图 (1.19) 所示

图 1.19: IWVAE 确定性采样

= g

(ϵ

, z

i−1

) = µ

i−1

) + σ(z

i−1

)ϵ

= g

(ϵ

, z

i−1

) = µ

i−1

) + σ(z

i−1

) ⊙ ϵ

其中：ϵ

∼ p(ϵ

), i = 1, 2, . . . , I，ϵ = (ϵ

, ϵ

, . . . , ϵ

)，每个随机层 z

都有一个辅助的随机量

∼ p(ϵ

)，并且在 ϵ

上进行 L 次采样，z

= g

(ϵ

, z

i−1

)

使用确定性转化技术后，L(θ, ϕ; x) 关于 ϕ 可导，有

∂

∂ϕ

= ∇

(z|x)



log

p(x, z)

(z|x)



= ∇

z∼q

(z|x)



log

p(x, z)

(z|x)



= ∇

ϵ∼N(0,I)



log

p(x, g

(ϵ, x))

(ϵ, x)|x)



= E

,ϵ

,...,ϵ

∼N(0,I)

∇

log

加权 VAE

IWVAE 和 VAE 有相同的网络结构，不同的是，IWVAE 构建了一个加权的 log p(x) 下界。

VAE 的变分下界为

L(θ, ϕ; x) = E

z∼q

(z|x)



log

p(x, z)

(z|x)



http://www.ma-xy.com 35 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

IWVAE 的变分下界为

(θ, ϕ; x) = E

,...,z

∼q

(z|x)



log



l=1

p(x, z

)

q(z

|x)



其中：z

, z

, . . . , z

是从识别模型中采取的相互独立的样本，z

, z

, . . . , z

∼ q

(z|x)。我们记

p(x, z

)

|x)

于是下界 L

(θ, ϕ; x) 可以写为

= E



log



l=1



⩽ log E





i=1



= log p(x)

对上面的加权目标 L

，我们有下面结论4(Approdix A)：

log p(x) ⩾ L

L+1

⩾ L

∀L > 0

此外，如果

p(z|x)

(z|x)

是有界的，那么，当 L → ∞ 时，有 L

→ log p(x)。这个下界 L

可以用 MC

方法来近似。我们从识别模型中抽取 L 个样本，z

, l = 1, 2, . . . , L，然后再平均它们的重要性权

重。有人可能会担心这个估计量有较大的方差，关于方差的计算，可以参考4(Approdix B)。

下面，我们来计算下界 L

关于 θ, ϕ 的导数。像 VAE 中分析的那样，我们仍然采用确定性

转化技术，有

∂L

(θ, ϕ; x)

∂θ

= ∇

,...,z

∼q

(z|x)



log



l=1



= ∇

,ϵ

,...,ϵ

∼N(0,I)



log



l=1



x, g

(ϵ

, x; θ); θ





= E

,ϵ

,...,ϵ

∼N(0,I)



∇

log



l=1



x, g

(ϵ

, x; θ); θ





= E

,ϵ

,...,ϵ

∼N(0,I)





l=1

˜w

∇

log w



x, g

(ϵ

, x; θ); θ





其中：ϵ

, ϵ

, . . . , ϵ

是去了 L 次样本；ϵ

= (ϵ

, ϵ

, . . . , ϵ

) 表示共有 I 个特征层 z。w

= w(x, g(x, ϵ

; θ); θ)

是权重函数； ˜w

∑

是归一化权重。特别的，当 L = 1 时， ˜w

= 1。

∇

log w



x, g

(ϵ

, x; θ); θ



= ∇

log p(x, g

(x, ϵ

; θ); θ)

− ∇

log q

(x, ϵ

; θ)|x; θ)

上式中等号右边第一项鼓励生成模型 (decoder) 分配高的概率给每一个 z

(在给定 z

i+1

后)，它同

时也鼓励识别模型 (encoder) 调整随机层 q

(z|x) 来做更好的预测。

关于 VAE 的改进，还可以参考：Laddder VariationalAutoEncoder5;2016.Rolfe28的 Discrete

Variational AutoEncoder; 以及 2016.Suwon31。

http://www.ma-xy.com 36 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

1.3.9 随机生成网络 GSN

Generative Stochastic Networks(GSN) 是 Bengio 于 2013 年提出的一种生成网络，是去噪自

动编码器 DAE 的推广。先回顾一下 DAE：我们有样本数据 X = {x

}

k=1

，X ∈ R

m×n

/{0, 1}

m×n

，

设 AE 网络有输入层、隐含层/特征层和输出层 3 层，要求 p(x)，即样本的分布。这个问题本质

是一个密度函数的估计 (拟合) 问题，如果对 p(x) 的分布形式进行假设，比如我们假设 p(x) 是

多元高斯分布，那么，只要求多元高斯中的参数 θ 即可。DAE 在原样本中加入噪声 ε，使原始

样本数据 x 变为 ˜x = x + ε，然后用 ˜x 进行训练。我们设含噪声的随机变量 ˜x 的分布为 C(˜x|x)，

则 ˜x ∼ C(˜x|x)，训练过程为

h = f

(˜x)

ˆx = g

(h)

其中：θ

∆

= (θ

, θ

)，h 为特征层/隐含层。一般的目标可以是离差平方和或者极大似然函数。

原来的对 p(x) 的估计是一个无监督问题，而我们可以将 DAE 视为有监督问题，就像给定 ˜x

求 x 一样。我们称 ˜x 是坏样本 (含噪声样本/损坏样本)，对于同一个样本 x

，可以对其添加不

同的噪声，形成不同的坏样本。如果 DAE 网络训练结束后 (θ 求解结束)，对于一个已经损坏的

样本 ˜x

∗

，我们就可以给出它的估计 ˆx

∗

。具体的对于图像识别而言，给一张含糊不清的数字图片

˜x

∗

，如图 (1.20)

图 1.20: DAE 做图像判别的示意图

通过 DAE 我们就能给出 ˆx

∗

= 3 的概率。一定要注意 p

(x|˜x) 是一个识别问题，像回归一样

y|x ∼ N 。上面遗留的问题是：在网络参数 θ 训练完成后，如何识别坏样本，并且这个坏样本的

估计量 ˆx

∗

的统计性质如何？对于 DAE，还有一个问题，我们说 DAE 网络中包含了样本 x 的信

息，整个样本 x 的密度函数已经估计出来了，即 p(ˆx|

x)，那如何从这个分布中采样呢？

在回答上面两个问题之前，先来介绍一个新的网络 GSN。我们说 GSN 是 DAE 的推广，DAE

是在 x 中添加了噪声，自然想能否在 h 中也添加噪声，形成

h？GSN 的网络结构图如图 (1.21)

所示

http://www.ma-xy.com 37 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

图 1.21: GSN 的网络结构示意图

在 x 部分增加噪声 ε，在 h 部分增加噪声 ϵ。问题是：GSN 的求导可以进行吗？可以看到，

GSN 就和 VAE 的确定性转换技术一样，所以 GAN 是可以直接求导的。

下面，来处理上面遗留的两个问题：¬损坏样本的估计；如何采样。先来处理第二个问题，

前面介绍了各种各样的自动编码器，自动编码器内存放着数据 x 的分布，现在要从这个分布中采

样。可以尝试采用前面介绍的 MCMC 采样。Bengio(2013) 给出了一个从参数分布 p

(x) 中采样

的方法：通过运行马尔科夫链交替增加噪声到近似的真实分布 p(x|˜x) 当中。文中表明，如果一个

学习后的参数分布 p

(x|˜x) 接近真实分布 p(x|˜x)，在一些优良的条件下，运行一段马氏链后，平

稳分布 π(x) 会收敛到真实分布 p(x)。假设我们已经训练好了 AE 网络，从当前样本 x 开始 (x

可以是一个样本，也可以是一批样本)，则由 AE 形成的马氏链为

1. 从当前状态 x 开始，向 x 中注入噪声 ε，有 ˜x ∼ C(˜x|x)；

2. 将 ˜x 编码。h = f(˜x)；

3. 解码 h。ˆx = g(h)，且 p(x|ˆx = g(h)) = p(x|˜x)；

4. 从 p(x|ˆx) = p(x|˜x) 中采样一个状态 x。

Bengio(2014) 表明，如果自动编码器 p(ˆx|˜x) 是真实分布 p(x|˜x) 的一致估计量，则上述马尔

科夫链平稳分布 π(x) 是 x 分布 p(x) 的一致估计量 (虽然是隐含的)。

形式上，用 p

(ˆx|˜x) 表示经过 n 次训练的 DAE，他表示给定 ˜x ∼ C(˜x|x) 后，x 的概率分

布。这个估计量 p

(ˆx|˜x) 定义了一个马尔科夫链 T

：不断交替采样 ˜x ∈ C(˜x|x)，x ∼ p

(ˆx|˜x)。

我们设 π

是 T

的平稳分布，则有如下定理

定理如果 p

(ˆx|˜x) 是真实分布 p(x|˜x) 的一致估计量，并且 T

是一个马尔科夫链，则当

n → ∞ 时，平稳分布 π

(x) 收敛到数据分布 p(x)。

并且，为了使上述定理可行，要求 T

具有遍历性。DAE 的采样示意图如图 (1.22) 所示

http://www.ma-xy.com 38 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.3 自动编码器 AE

图 1.22: DAE 采样示意图

图 (1.22) 中：马尔科夫链的每个步骤与训练好的 DAE 相关联，每个步骤包括：(a) 通过损

坏过程 C 向状态 x 中注入噪声 ε 产生 ˜x；(b) 用函数 f 进行编码，产生 h = f(˜x)；(c) 用函数 g

进行解码，产生用于重构分布的参数 w

∆

= g(h)，在一般的平方重构误差下，w = ˆx = g(h)；(d)

给定 w，从重构分布 p(x|w) 采样新状态 x。

上面给出了 DAE 的马尔科夫链 x

，˜x ∼ C(˜x|x

)，x

t+1

∼ p

(x|˜x

)。下面给出 GSN 的马尔

科夫链。我们将 GSN 中的 x 和 h 都做为马尔科夫链的状态，有

t+1

∼ p

(h|h

, x

)

t+1

∼ p

(x|h

t+1

)

定义

t+1

= f

, ϵ

, h

)

其中：ϵ

是引入到隐含层的噪声。可以看出 DAE 是 GSN 的特殊情况。

定理设训练样本 x ∼ p(x)，噪声 ϵ ∼ p(ϵ)，并且在隐含层 h 中添加噪声

= f

t−1

, ϵ

t−1

, h

t−1

)

考虑模型 p

(x|f

(x, ϵ

t−1

, h

t−1

))：对一个给定的 θ

，p

(x|h) 是一个 p(x|h) 的估计量。设马尔

科夫链的平稳分布 π

(x, h) 的边缘分布为 π

(x)，当训练次数 n → ∞ 时，π

(x) → p(x)。

GSN 的马尔科夫链如图 (1.23) 所示

图 1.23: GSN 马尔科夫链示意图

定理设 (h

, x

)

∞

t=0

是上图定义的马尔科夫链，假设这个马尔科夫链有平稳分布 π(x, h)，并

且对于每一个值 (x, h)，如果

1. 所有的 p(x

= x|h

= h) = g(x|h) 有相同的密度，t ⩾ 1；

http://www.ma-xy.com 39 http://www.ma-xy.com

http://www.ma-xy.com

1.3 自动编码器 AE 第一章深度学习

2. 所有的 p(h

t+1

= h|h

= h

′

, x

= x) = f(h|h

′

, x) 有相同的密度，t ⩾ 0；

3. p(h

= h|x

= x) = p(h

= h|x

= x)；

4. p(x

= x|h

= h) = p(x

= x|h

= h)

那么，对于每个值 (x, h)，我们会有

1. p(x

= x|h

= h) = g(x|h)；

2. p(x

= x|h

= t) = p(x

= x, h

= h，t ⩾ 0；

3. 平稳分布 π(x, h) 的边缘分布 π(x) = p(x

= x)

上述结论表明：马尔科夫链的样本与 x

来自相同的分布。

1.3.10 beta - VAE

TODO: 待补充。。。

1.3.11 MATLAB 应用实例

MATLAB 自带工具

MATLAB 自带的自动编码器命令如表 (1.1) 所示

表 1.1: Autoencoders 命令

命令说明

Autoencoder Autoencoder class

trainAutoencoder 训练自动编码器

trainSoftmaxLayer Train a softmax layer for classication

decode Decode encoded data

encode Encode input data

generateFunction Generate a MATLAB function to run the autoencoder

generateSimulink Generate a Simulink model for the autoencoder

network Convert(转变) Autoencoder object into network object

plotWeights Plot a visualization of the weights for the encoder of an autoencoder

predict Reconstruct(重建) the inputs using trained autoencoder

stack Stack encoders from several autoencoders together

view View autoencoder

http://www.ma-xy.com 40 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

1.4 卷积神经网络 CNN

1.4.1 基础卷积神经网络 CNN

回忆之前提到过的网络模型，无论是 MLP、Hopeld、SMO、BM、DBM、AE、VAE 和 GSN

等，这些网络模型的输入层都是向量输入，即 x

= (x

, x

, . . . , x

)，即便是批量或者全批量，也

是以向量为样本的。整个样本的数据结构如图 (1.24) 所示

图 1.24: 向量样本的数据示意图

也就是说，网络输入的样本 x

要是一个向量，比如，对于一个图像分类问题，要先将具体的

图像样本 (矩阵) 变为向量，然后将向量输入到网络进行分类。自然会想，能不能把图像 (矩阵)

直接输入到网络中，因为对于图像处理而言，我们的样本就是一个个的图像矩阵。为此，要开发

一个以矩阵为输入的神经网络 (以及一些矩阵对矩阵的操作)。并且注意到如果图像是批量或者

全批量样本，则是一个 3 维矩阵 (张量)。

幸运的是，我们已经有了这样的网络。下面要介绍的 CNN 网络就是一个以矩阵为样本的前

馈网络 (如果将 CNN 视为 MLP 的矩阵推广，那么 Hopeld 等网络能否推广到矩阵样本？)。如

前面的神经网络一样，先来介绍 CNN 的网络结构，再介绍它的学习方法。

1962 年，Hubel 和 Wiesel 通过对猫视觉皮层神经元的的研究，提出了感知野 (receptive eld)

的概念；1980 年，日本学者 K.Fukushima 提出了神经认知机，这也是第一代卷积神经网络；1989

年，加拿大教授 Yann LeCun 提出了卷积神经网络 (Convolution Neural Networks,CNN)；2012

年，深度学习大牛，DBN、DBM 的开发者 Hinton 教授带领 2 个学生，采用更深的 CNN 在 Image

Net 问题上取得了当时最好的结果，虽然这一结果之后一直被刷新，但 CNN 带来的视觉革命是

不容忽视的。

CNN 网络结构

假设有一个带标签的图像集/样本集 S = {x

, y

}

k=1

，x

是一个图像矩阵，y

是图像 x

的

分类标签值。为了简便，我们将 x

视为 n ×n 方阵，x

∈ R

n×n

/{0, 1}

n×n

，假设分类任务共有

c 类，则 y

∈ {1, 2, . . . , c}。现在，我们来看对于一个图片 x

而言，CNN 的处理方式 (前向传

播)，其处理流程如图 (1.25) 所示

http://www.ma-xy.com 41 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

图 1.25: CNN 网络结构示意图

这里给出的 CNN 网络结构 (1.25) 共有 7 个网络层。当然，我们可以继续加深网络，但是太

深的 CNN 在反向传播过程中会出现误差消失/梯度消失的现象，具体而言，当我们从 F

层开始

向 C

层传播，到了 C

层时，各 θ 所分担的误差会非常小。在上面的 7 层 CNN 中，C

, S

, C

, S

都是为了从 x

中提取/获取特征，F

, F

是一个一般的 BP 神经网络 (其它分类器亦可)。下

面，我们来介绍每一步 (每一层) 的操作。

1♣：对 C

层而言，输入为 32 ×32 大小的样本图片 x

∆

= x

，输出为 6 个矩阵。并且，这 6 个矩

阵的大小为 28 × 28，与原矩阵 32 × 32 不一样，那么 1♣ 是如何操作的才能产生这种结果呢？

1♣ 过程是卷积过程 (Colution)，主要是利用卷积核 (权重矩阵 w，待求) 来进行操作的。为

了方便，我们设被卷积的图像 a 的大小为 5 × 5，卷积核 w 大小为 3 × 3，输出矩阵为 c，则 a

到 c 的卷积过程如图 (1.26) 所示

图 1.26: 卷积过程示意图

用 w 从 a 的左上角开始，找到同样大小的 3 × 3 局部矩阵，2 个矩阵 (w 和 a 的局部矩阵)

对应元素相乘相加 (卷积操作)，得到 36；之后，再把 w 一个点一个点的向右移动，卷积形成 54

和 72；再将 w 向下移动，以形成其它的卷积值。可以计算，如果 a 是 m ×n 大小，w 是 mx ×my

大小，则卷积后的 c 是 my × ny 大小，其中：my = m −mx + 1, ny = n − nx + 1。你可能会有

以下问题：

1. 是否要求输入图像 x 是 01 值？不限制；

2. 是否要求输入图像 x 是方阵 n × n？不限制，但最好是；

3. 为什么输入一张图片，结果卷积出来了 6 张图片？因为有 6 个卷积核 w

, w

, . . . , w

，并且

注意：其实多个矩阵 (map) 可以公用一个卷积核，卷积之后结果相加，形成一个输出。

http://www.ma-xy.com 42 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

2♣：C

到 S

。对 S

而言，输入为 6 张图，输出为 6 张图，只不过大小从输入的 28 × 28 变为

了 14 × 14。那么，这 6 张图在 2♣ 处都经历了什么？S

层是一个池化过程/采样过程，从其名

称“采样”可以看出，这是一个降维操作，以降低参数个数。该过程有 2 种常见的采样方法：一

种是均值池化 mean pooling；一种是最大池化 max pooling。相对常用的是 max pooling。我们

用一个 28 × 28 的矩阵来演示池化过程，如图 (1.27) 所示

图 1.27: 池化过程示意图

把原图像 (28 × 28) 中的相邻 4 个 (上下左右) 数值之间取最大值，作为输出。这样就从

28 ×28 变为 14 ×14。当然，对于 mean pooling 而言，我们取相邻的 4 个数值的平均作为输出。

我们可以设置池化池

采样矩阵

(

采样矩阵的大小，例如：

)

的大小为

，但是，有必

要让 m

, n

为整数。

考虑：1. 为什么要采样；2. 采样的误差传播如何进行；3. 能否间隔采样。如何设计其它的采

样方法，并且一定注意采样的误差传播应该易于进行。

3♣：C

为卷积层，输入 6 个 14 × 14 的矩阵，输出 16 个 12 × 12 的矩阵 (12 = 14 − 3 + 1)，

→ C

过程为卷积过程，但是，如果我们像 1♣ 那样，对输入的 6 个矩阵的每一个矩阵都进

行 6 次卷积操作，那么结果应该有 6 个或者 36 个输出矩阵。这 16 个输出矩阵式如何来的？我

们应该清楚一点的是，输出矩阵的多少应该由卷积核的个数控制，比如：要形成 16 个输出矩阵，

就设置 16 个卷积核，对于每个卷积核而言，无论有多少个输入图像与它进行卷积，都将其得到

的结果相加，以形成 1 个输出。所以为了有 16 个输出就设置 16 个卷积核。现在的问题是：每

个卷积核都应该和那几个输入图片 (共 6 个) 进行卷积呢？当然，可以进行全连接，即每个卷积

核都要卷积 6 个输入。但是这样做会使计算量变得很大，为此，我们采用 LeNet5 的非全连接策

略，其连接方式如表 (1.2) 所示表 (1.2) 中画 @ 的表示对应的神经元 (矩阵) 连接，否则不连接。

例如：C

的第一个矩阵为

= f(S

+ S

+ b)

当然，这里还可以采取其他的非全连接方式。

4♣：S

为采样层 (down sample)。如前，输入 16 个 12 × 12 矩阵，输出 16 个 6 × 6 矩阵。

5♣：F

为展开的特征层。该层的操作只是将 S

层得到的 16 个 6 ×6 矩阵展开合并为 1 个向量，

以便输入到后面的神经网络等基本分类器当中。其实，F

不仅可以在采样层 S

后对其展开，也

可以在卷积层后对卷积层展开。

6/7♣：是一个简单的分类器，比如 BP 和 Softmax 等。

http://www.ma-xy.com 43 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

表 1.2: LeNet5 的连接表

S2 → C

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

1 @ @ @ @ @ @ @ @ @ @

2 @ @ @ @ @ @ @ @ @ @

3 @ @ @ @ @ @ @ @ @ @

4 @ @ @ @ @ @ @ @ @ @

5 @ @ @ @ @ @ @ @ @ @

6 @ @ @ @ @ @ @ @ @ @

通过上面的分析，已经基本了解了 CNN 的网络结构与基本的操作 (卷积和池化)。注：能否

设置一个动态网络，随着训练的不断进行，网络结构也在发生变化？上面只是简单的描述了一下

CNN 的前向传播过程，下面，来建立数学模型，并求解网络参数 (反向传播)。

CNN 训练方式

先将 CNN 网络描述成神经元的形式，如图 (1.28) 所示

图 1.28: CNN 网络的神经元形式

图 (1.28) 中的每一个神经元表示一个矩阵 (map)。更一般的，设样本集为 S = {x

, y

}

k=1

，

共有 c 类，y

∈ {1, 2, . . . , c}。设 CNN 网络共有 L 层 (输入 x 不算一层)，各层神经元个数为

(l = 1, 2, . . . , L)，记第 l 层神经元为 x

，x

= (x

, x

, . . . , x

)，x

是矩阵 (除了后面的 BP 分

类器中的神经元外)。第 i 个神经元与第 j 个神经元连接的权重为 w

(当然，许多神经元共用一

个卷积核

)

，一般的，有几个输出图像就有几个卷积核。

为 l 层神经元 j 的偏置。

CNN 前向传播 (1) 对卷积层而言，其输入输出可以表示为

= f



l−1



i=1

l−1

⊕ w

+ b



其中：f 为普通可导函数，⊕ 表示卷积等操作，并且是 l − 1 层所有的神经元与 l 层的 j 神经元

连接，且连接的各卷积核 w

是不同的，这是一般的表述方式。我们记

l−1



i=1

l−1

⊕ w

+ b

http://www.ma-xy.com 44 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

为第 l 层第 j 神经元的输入，则 x

为其输出。

(2) 对池化层而言 (采样层)，其输入输出的表达式为

= f



down



l−1



+ b



其中：down(x) 是对矩阵 x 进行下采样操作 (均值池化、最大值池化)，β

, b

为偏置。令

= β

down



l−1



+ b

为第 l 层第 j 个神经元的输入，x

为其输出。

(3) 对小分类器而言

= f(w

l−1

+ b

)

或者写为

= f



·j

l−1

+ b



= f



l−1



i=1

l−1

+ b



我们仍然令

= w

l−1

+ b

为第 l 层的输入，x

为输出。

CNN 反向传播先来表示网络输出值 t 和样本真实值的误差，以便构建“离差平方和目标”。对

于 N 个样本 S = {x

, y

}

k=1

，c 个类别，其误差平方可以表示为

E =



n=1



k=1

− y

)

其中：t

表示第 n 个样本的网络输出值/估计值。记 e

∈ R

/{0, 1}

为第 n 个样本的误差，E

为第 n 个样本的误差平方，有

E =



n=1



k=1

− y

)

||t

− y

令 θ

∆

= (w , b)。E 关于 θ 求导，有

∂E

∂θ



n=1

∂E

∂θ

下面，来求解

∂E

∂θ

。

http://www.ma-xy.com 45 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

(1) 对小分类器而言，和前面介绍的 BP 是一样的，这里我们再写一次。

||f(u

) − t

||f(w

l−1

+ b

) − t

||y

− t

对所有的 l(小分类器的层)，E

关于 b 求导有

∂E

∂b

∂E

∂u

∂b

而

∂u

∂b

= 1，所以我们要求

∂E

∂u

。定义 δ

∂E

∂u

，有

∂E

∂u

∂

∂u

||f(u

) − t

= (f(u

) − t

′

) = e

′

)

∂E

∂u

l+1

)

l+1

′

) l = L − 1, L − 2, . . . ,

同理，E

关于 w 求导，有

∂E

∂w

∂E

∂u

∂w

= x

l−1

(δ

)

(2) 对卷积层而言。卷积层的反向传播示意图如图 (1.29) 所示

图 1.29: 卷积层的反向传播示意图

= β

l+1



′

) · up(δ

l+1

)



其中：up(·) 是上采样操作，与 down(·) 相反。如果下采样的池化池/采样矩阵的大小为 n ×n，则

up(x) 写为

up(x) = x ⊗ I

n×n

这里的 ⊗ 表示 Kronecker 乘积。比如，在 S 层中第一个神经元的误差矩阵为

e =



1 2

3 4



http://www.ma-xy.com 46 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

而 S 的第一个神经元是 C 的第一个神经元经过最大下采样缩小 2 倍 (n = 2) 得到的，那么

up(e) =







1 1 2 2

3 3 4 4







现在，得到了 l 层神经元 j 的误差 δ

，接下来，要把误差下分到权重 w

和 b

上

∂E

∂b



u,v





∂E

∂w



u,v







l−1



其中：



u,v





表示将 δ

逐元素相加，(p

l−1

)

是 x

l−1

在卷积时候，与 w

逐元素相乘的

pitch，输出卷积层某个图像的 uv 位置是由上一层 uv 位置的 pitch 与卷积核 w

逐元素相乘的

结果。在 MATLAB 中可以通过下面的命令实现

∂E

∂w

= rot180(conv2(x

l−1

, rot180(δ

′

valid

′

))

示例：卷积层的误差传递如图 (1.30) 所示

图 1.30: 卷积层误差传递示意图

假设 l + 1 层的 pool 层大小为 2 × 2，并且此时 pool 后的 δ

l+1

是 (

1 3

2 4

) ¬如果将 l 层 (卷积

层)mean pool 到 l + 1 层，则 l 层 δ

应为 4 × 4，为

up(δ

l+1

) =







1 1 3 3

2 2 4 4







又因为是均值采样且反向传播时，误差总和不变，所以卷积层 l 要对每个值平摊，于是误差变为







0.25 0.25 0.75 0.75

0.5 0.5 1 1







http://www.ma-xy.com 47 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

up(x) 可以通过 MATLAB 中的 kron 函数实现。如果是将 l 层 max pool 到 l + 1 层，则需要在

前向传播中记录 pool 区域中的最大值的位置，以便把误差分给相应位置。假如我们在



∗



位置取得最大值，则







0 0 0 3

0 1 0 0

2 0 0 0

0 0 4 0







上面给出了 δ

的求法，现在给出

∂E

∂b

∂E

∂w

的求法。这里不考虑非线性函数 f 和 β

，因此，

pool 层前面是没有权值的，也就没有所谓的权值的导数了。假设现在要求

∂E

∂b



u,v





∂E

∂w

= x

l−1

⊙ δ

其中：⊙ 表示矩阵相关操作 (反卷积)，可以用 conv2 函数实现，但是要将 δ

旋转 180

◦

，即

conv2(x

l−1

, rot180(δ

′

valid

′

)

设第 l −1 层的第 i 个图像 (矩阵)x

l−1

大小为 4 ×4 的



16 2 3 13

5 11 10 8

9 7 6 12

4 14 15 1



，第 l 层的第 j 个神经元的

误差 δ

为 3 × 3 的



0.8 0.1 0.6

0.3 0.5 0.7

−0.4 0 −0.2



，这时的 w

的导数矩阵的大小为 2 × 2 且其结果为







16 2 3 13

5 11 10 8

9 7 6 12

4 14 15 1







⊙







0.8 0.1 0.6

0.3 0.5 0.7

−0.4 0 −0.2









20.4 2.8

4.9 12.7



此时偏置 b

的导数为 1.2，即将 δ

的元素相加即可 0.8+0.1−0.6+0.3+0.5+0.7−0.4−0.2 = 1.2。

(3) 对池化层而言。这里最困难的是计算 δ

，一旦得到了它，我们只要更新偏置参数 β, b 就

可以了。如果池化层 l 与下一层卷积层 l + 1 是全连接，那么就可以通过 BP 来计算采样层 δ

了。要计算卷积核的梯度，所以必须要找到输入矩阵中哪部分 (patch) 对应输出矩阵的哪一个像

素。这里，要找到当前层 (pool) 的 δ

矩阵的哪一 patch 对应下一层 (卷积层) 的 δ

l+1

的给定像

素，然后用反向传播传递回来

= f

′

) · conv2



l+1

, rot180(k

l+1

′

full

′



下面，就可以把误差/灵敏度 δ

传递给 β, b 了

∂b



u,v

(δ

http://www.ma-xy.com 48 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

而对于乘性偏置 β，因为涉及到了前向传播中下采样的计算，所以，最好在前向传播中保存好这

些矩阵，这样，在反向传播中就不用重新计算了。令

= down(x

l−1

)

则

∂E

∂β



u,v





示例：池化层的反向传播示意图如图 (1.31) 所示

图 1.31: 池化层的反向传播示意图

假设 l 层的某个矩阵 x

的大小为 3 ×3，第 l + 1 层有 2 个卷积核 w

, w

，卷积核的大小为

2 × 2，则在前向传播时，第 l + 1 层会有 2 个 2 × 2 的输出矩阵 x

l+1

。设 2 个卷积核为 (

0.1 0.2

0.2 0.4

)

和 (

−0.3 0.1

0.1 0.2

) 。反向传播时，假设已经知道第 l + 1 层 2 个输出图的误差 δ

l+1

和 δ

l+2

为 (

1 3

2 2

) 和

(

2 1

1 1

) 。注：1. 矩阵大小为多大，误差 δ 就为多大，每个矩阵元素都有误差/灵敏度；2. 假设 pool

到 conv 是全连接。

那么，我们就将 w

l+1

和 δ

l+1

实现 conv2 操作

conv2(δ

l+1

, rot180(w

l+1

′

full

′

)

其中，conv2 将 δ

l+1

填充’full’ 为



0 0 0 0

0 1 3 0

0 2 2 0

0 0 0 0



和



0 0 0 0

0 2 1 0

0 1 1 0

0 0 0 0



然后再和旋转 180

◦

的 w

l+1

进行卷积

操作，有







0 0 0 0

0 1 3 0

0 2 2 0

0 0 0 0







⊙



0.1 0.2

0.2 0.4









0.1 0.5 0.6

0.4 1.6 1.6

0.4 1.2 0.8













0 0 0 0

0 2 1 0

0 1 1 0

0 0 0 0







⊙



−0.3 0.1

0.1 0.2









−0.6 −0.1 0.1

−0.1 0.3 0.3

0.1 0.3 0.2







http://www.ma-xy.com 49 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

则 l 层 j 矩阵的灵敏度 δ

为 3 × 3，是上述 2 个矩阵的和







0.1 0.5 0.6

0.4 1.6 1.6

0.4 1.2 0.8













−0.6 −0.1 0.1

−0.1 0.3 0.3

0.1 0.3 0.2













−0.5 0.4 0.9

0.3 1.9 1.9

0.5 1.5 1







(4) 学习特征矩阵的组合。大部分时候，通过卷积多个输入矩阵 (maps)，然后再对这些卷积

值求和得到一个输出 map，这样做的效果往往较好。在一些文献中，如 LeNet 中，一般是选择哪

些输入 maps 组合在一起进行输入。现在，我们让 CNN 在训练过程中自己学习这些组合，即让

网络自己挑选哪些输入 maps 进行组合。我们用 α

表示第 j 个输出的 map 中的 i 个输入 map

的权重或贡献。这样，第 j 个输出 map 就可以表示为

= f



−1



i=1

l−1

⊕ w

) + b



要求 α

要满足



= 1

0 ⩽ α

⩽ 1

上述约束可以通过将变量 α

表示为一组无约束的隐含权值 c

的 softmax 函数来加强 (因为

softmax 的因变量是自变量的指数函数，它们的变化率会不同)



因为对于一个固定的 j 而言，每组权值 c

都是和其它组的权值独立的，所以为了方便描述，

我们把下标 j 去掉，只考虑一个 map 的更新，其他 map 的更新情况是一样的，只是索引 j 不同

而已。softmax 函数的导数表示为

∂α

∂c

= δ

− α

这里的 δ 是 Kronecker delta。误差 E

对第 l 层变量 α

的导数为

∂E

∂α

∂E

∂u

∂α





⊙

(

l−1

⊕

)



其中：⊙ 表示元素操作，⊕ 表示卷积操作。最后，E

对 c

求导，有

∂E

∂c



∂E

∂α

∂c

= α



∂E

∂α

−



∂E

∂α



http://www.ma-xy.com 50 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

(5) 强加稀疏性组合。为了限制 α

是稀疏的，也就是限制一个输出 map 与某些而非全部输

入 maps 链接，我们在整体代价函数中增加稀疏约束项 Ω(α)。对单一样本而言，重写代价函数为

= E

+ λ



i,j

|(α)

| = E

+ Ω(α)

我们仍将

关于参数求导，这里主要是 Ω(α) 对权值 c

求导。先求 Ω(α) 关于 α

的导数，再

求对 c

的导数，有

∂Ω

∂α

= αsign(α

)

所以权重 c

的梯度为

∂

∂c

∂E

∂c

∂Ω

∂c

CNN 的问题

1. 梯度消失。无论是 ANN(MLP)、CNN 还是后面要介绍的 RNN，如果网络层数过多，就会

出现梯度消失/爆炸现象。比如：

∂E

∂w

，当 L 很大而 l = 1 时，

∂E

∂w

= (10

−10

)

n×n

。这时权重

w 的更新非常小，几乎不动。解决方法：1. 减少层数 L；2. 增大学习率 η；3. 使用 ReLu 作

为传递函数。

2. 随机梯度下降的参数选取。如何选取批量样本大小以及学习率 η。

3. 参数 θ

∆

= (w , b) 的初始化。

4. 样本归一化。

1.4.2 AlexNet

2012 年，Hinton 教授及其 2 个学生 Alex kvizhevsky 和 Ilya Sutskever 提出一种改进的深

层 CNN 网络 - AlexNet，并将其运用到 Image Net 的 ILSVRC2012 中，取得了当时最好的成绩：

在 top-1 和 top-5 上的误差率为 37.5% 和 17.0%。

ImageNet(http://www.image-net.org)

是李菲菲组的图像库。

ImageNet

设想为全世界的教

育工作者、研究工作者提供图片资源。ImageNet 不拥有图片的版权，只提供图片的缩略图和 url。

从某种程度上讲，它可以视为图像搜索引擎。ILSVRC 使用 ImageNet 的一个子集，共 1000 个类

别，每个类别大约包含 1000 张图片，训练集为 12 万张，验证集为 5 万张，测试集为 1 万张。输

入图像的大小为 256 ×256 ×3。在 AlexNet 网络中，随机提取 224 ×224 个像素点，然后 crop



。

crop 后实际输入到 AlexNet 网络的图像大小为 227 × 227 × 3(RGB 图像)。

AlexNet 是一种经典的 DeepCNN，它由 5 层 convolution layer、2 层 fully connected layer

和 1 个 label layer(1000 类) 组成，是一个 8 层的 CNN 网络，但是这里的 Convolution layer



注：crop 为将图片进行 4 个边界 crop 和中心 crop。

http://www.ma-xy.com 51 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

和 CNN 中的不同，它是许多网络层的组合，比如：convolution layer1 是由 1 个卷积层、1 个

maxpool 和 1 个 LRN 共同构成。AlexNet 的网络结构如图 (1.32) 所示

图 1.32: AlexNet 网络结构图 1

从上面的网络示意图 (1.32) 中，我们可以看到，与传统的 CNN 相比，AlexNet 除了网络层

数更深之外，还多了 Relu 和 LRN 层。这个大的网络包含了 6 千万个参数和 65 万个神经元，并

利用了 Rleu、dropout、data augmentation 等技术来防止过拟合。下面，我们来介绍 AlexNet 中

的这些技术。

(1)Relu。在前面的神经网络章节中，介绍传递函数时，我们已经介绍了 Relu 传递函数。我

们用 Relu 来代替传统的 sigmoid 函数，其好处有 3，¬在采用 sigmoid 传递时，计算需要指数运

算，此运算相对而言计算量大，并且，在反向传播求梯度时，求导涉及到除法，除法的计算量仍

然大；在 sigmoid 传递时，当网络深度很大时，容易出现梯度消失现象，因为在 sigmoid 接近

饱和区域时，变化太缓慢，梯度趋于 0，造成信息损失；®Relu 使一部分神经元的输出为 0，使

网络具有稀疏性，并减少了参数的相互依赖关系。

(2)Local Response Normalization, LRN(局部归一化)。Relu 传递函数本身其实是不对输入

做归一化的，从而避免出现饱和现象。如果训练样本经过卷积网络产生正响应输入到 Relu 的，则

就可以对该神经元的参数进行相应的学习，不过 AlexNet 发现，在 Relu 后面加上一个局部归一

化部分，则会使网络达到更好的泛化效果

= a







k + α

min(N−1,i+n/2)



j=max(0,i−n/2)

)





其中：a

表示输入 maps 的 (x, y) 位置做第 i 次卷积并通过 Relu 单元的结果，而 b

是相应

归一化的结果，n 是指相同位置的第 i 次前后附近的卷积核的数目，而 N 是总的卷积次数。选

取邻近的 n 个特征图 (maps)，在 maps 的空间位置 (x, y) 一次平方，然后求和，乘以 α，加上

k。Alex 在原文中是 k = 1，n = 5，α = 10

−4

，β = 0.75，并且与不做局部归一化进行比较，在

top-1 和 top-5 上分别提到了 1.4% 和 1.2%，并且在 CIFAR10 中的结果也有提高。

(3) 重叠 pooling 层。普通的采样层 (如前面 CNN 的池化层那样)，采样窗口大小为 2 × 2。

我们可以以步长 s 进行划分，如果是普通采样，s = z(= 2)，即采样窗口不重叠，我们利用 z ×z

大小的采样窗口，隔 s 步 (s 个像素点) 蹦一下，进行采样。而重叠 pool 就像它的名字一样，前

后 2 个采样窗口 (z × z) 是有重叠的，即 s < z。无重叠 pool 如图 (1.33)(a) 所示，有重叠 pool

如图 (1.33)(b) 所示

http://www.ma-xy.com 52 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

图 1.33: 有无重叠的 pool 示意图

当然，如果采用有重叠的 pool 方式

，可能使采样结果重复 (对 maxpool 而言)。另外，实

验表明，maxpool 优于 meanpool。Alex 实验表明，使用 s = 2, z = 3 的有重叠 pool 比使用

s = z = 2 的无重叠 pool 效果要好，在 top-1 和 top-5 上提高 0.4% 和 0.3%。

(4) 过拟合。AlexNet 网络有 6 千万个参数，而训练样本的类别只有 1000 类，这不足以让我

们来学习这么大的网络，因此我们要考虑网络的过拟合。文中提到了 2 个防止过拟合的策略，一

个是 Data Augmantation(这个我们不介绍)，一个是 dropout。组合预测是一种非常成功的减小

预测误差的手段，但它训练要花费好几天的时间，对大型网络而言，更是困难。然而，最近推出的

dropout 技术是一种非常有效的模型组合方法，它的训练只花费 2 倍的单模型的时间。dropout

是 Hinton 在 Improving neural networks by preventing co-adaption 中提出的，以 0.5 概率随机

将隐含层中的各神经元输出置为 0。以这种方式丢弃的神经元既不参与前向传播，也不参与反向

传播，所以对每个输入样本而言，该神经网络都是一个随机得到不确定的网络。但是，所有这些

结构之间共享权重，即权重的更新照旧。这样得到的参数能够适应不同情况下的网络结构，提高

了系统的鲁棒性。AlexNet 的前 2 个 full connected(FC) 层使用了 dropout 方法，所以在测试时，

应该注意，对每个被 dropout 的神经元的输出乘上一个 0.5，以合理的逼近预测输出分布的几何

均值。

(5) 学习过程。下面介绍的内容在本书的其它部分皆有详细的介绍。AlexNet 网络的目标函

数可以设置为 1.log-loss；2.softmax log-loss；3.p-distance loss。对于 AlexNet 训练参数的设置，

AlexNet 训练时使用批量梯度下降算法 SGD，批量大小 (batch size) 为 128。参数更新使用动量

(momentum) 更新方法，weight deccy 设置为 0.0005，更新公式为

i+1

= 0.9v

− 0.0005 · ϵ · w

− ϵ ·



∂L

∂w





i+1

= w

+ v

i+1

其中：i 为第 i 个批量样本 (每个批量更新一次参数)，v 为动量，ϵ 为学习率，



∂L

∂w





是第 i

个批量 D

的目标 L 关于 w 的方向导数在 w

的值。

网络的初始权重为 w

∼ N (0, 0.01)，而 2、4、5 卷积层的偏置 b 及全连接层 FC 的偏置初

始化都为 1，剩下的偏置初始化为 0。对于学习率 ϵ，每次对当前的学习率除以 10，直到交叉验

证 CV 的 error rale 不再更新为止。Alex 的学习率初始值为 0.01，验证 3 次就终止。AlexNet 在

ImageNet 的 1.2 百万张图片上，大概 90 次停止，在 NVIDIA GTX 580 GPU 上跑了 5 到 6 天。

注：有学者认为，在训练一个良好的生成模型时，弃用 pool 层也是很重要的，如 VAE 和 GAN。

http://www.ma-xy.com 53 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

(6) 网络框架。进入 CNN，我们也基本上正式进入了深度学习搭建、调参之旅，说实话，旅

途坑很多。这里插入 2 张图片 (1.34)，上图是 AlexNet 的网络数字流程图，下图是 AlexNet 的

双 GPU 图。

图 1.34: AlexNet 网络框架图

1.4.3 NiN

2014 年 Min Lin 的 Network in Network(NiN)23是当时少有的对 CNN 卷积层进行改进的文

章。文章就 CNN 框架提出了 2 种改进方案：1、mloconv 替代 conv；2、平均池 (average pooling)

替代 CNN 的全连接。

mloconv 替代 conv

NiN 使用 mlpconv 来替代原来的 conv 层，mlpconv 实际上是在 conv 层上加上 mlp。因为

conv 是线性的，而 mlp 是非线性的，后者能够得到更高的抽象层，泛化能力更强。在跨通道的情

况下 (cross channel,cross feature map)，mlpconv 等价于卷积层加上 1 ×1 卷积层，所以 mlpconv

也称为 cccp 层。借助这个机会，我们再来看一下 conv。其实 CNN 和 MLP 有很深的渊源，我

们可以将 CNN 展成向量来观察二者之间的相似性，这里我们就不做了。

(1)conv。传统的 conv 是给定一张图片 (map)x，我们用一个卷积核 w 扫描这张图片，以实

现卷积，如图 (1.35) 所示

http://www.ma-xy.com 54 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

图 1.35: 传统的 conv

这其实是权重共享技术，因为原输入 x 共享了一个卷积核/权重 w。比如，我们将 x 展开成

向量，将卷积核 w 展开成向量，如图 (1.36) 所示

图 1.36: 卷积核展开示意图

权值共享为 w

= w

= . . . , w

:= w。就输入 x 的某一部分 (patch) 来看，令 patch = x

，

如图 (1.37) 所示

图 1.37: 输入的部分卷积图

我们将其展开，如图 (1.38) 所示

图 1.38: 输入的部分卷积展开图

图 (1.38) 中有

= f(w

)

http://www.ma-xy.com 55 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

即输出图像的某一个像素点 y

就是原输入图像的部分 x

和卷积核 w 卷积而来 (忽略 b，不考虑

多输入)。这是一个 2 层的 MLP，我们考虑能否将这个 2 层的 MLP 加深？

(2)mlpconv。malpconv 的示意图如图 (1.39) 所示

(a) (b)

图 1.39: mlpconv 示意图

图 (1.39a) 中，令 w = (w

, w

) 我们有

= f(w

)

= f(w

)

= f(w

)

y = f

(vh) = f

(vf(w

))

前面只是用了一个卷积 w，这里使用了 3 个卷积 w

, w

就有 3 个输出，然后将它们汇聚在

一起，就变成了一个 3 层的 MLP。当然，可以继续加深网络。

就整个输入矩阵 x 而言，我们设置了 3 个卷积核 w

, w

，用这 3 个卷积核分别扫描 x 就

有了 3 个输出，然后将其汇聚在一处，如图 (1.40) 所示

图 1.40: 3 个卷积核的 mlpconv 示意图

这里，也可以将 v 视为一个卷积核。有一个问题是：哪一层算作 MLP 的输入？为了将 conv

和 mlp 分开，将上面的 h

, h

即卷积后面的输出作为 mlp 的输入。这样，上面的过程是一个

1 卷积 conv 加上 2 层 mlp。将后面的 mlp 层加深，如图 (1.41) 所示

http://www.ma-xy.com 56 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

图 1.41: conv 和 3 层 mlp

当然，上面两种理解都可以：x 展开后直接 mlp；x 先卷积再 mlp。二者本质上是一样的，并

且注意，我们并不要 mlp 层数太多。

(3)mlp = conv + 1 ×1 conv。上面的分析只是对一个输入 x 而言，且 x 是一个矩阵 (而 RGB

图像是一个张量)。对于单个输入 x 和单个卷积核 w 而言，1 ×1conv(1 × 1 卷积核) 是易于理解

的，卷积核的大小就是 1 ×1。但实际上，CNN 的卷积大多是多个 maps 和多个卷积核之间的操

作。输入多个 map 和一组卷积核进行卷积操作，然后求和，得到一个输出 map。如果此时使用

1 × 1 卷积核，其实就是多个 feature map 的线性组合。

文中提出了 mlpconv 其实等价于传统卷积核后接 cccp 层，从而实现多个 feature map 的线

性组合，而 cccp 层与 1 × 1 卷积核是等价的。多输入的 mlpconv(cccp 层) 如图 (1.42) 所示

图 1.42: cccp 层示意图

如果要使 MLP 的输入有 n 个神经元，就需要 n 个卷积核 w

, w

, . . . , w

，从而实现上面的

2 个 MLP。在 cae 上的实现是：mlpconv = convenience + 1 × 1conv + 1 × 1conv。

Average Pooling

NiN23中对 CNN 的第 2 处改进是使用全局平均 pool 来替代 CNN 中小分类器与卷积 (池

化) 完全展开的接口。回忆一下 CNN 中的 S

到 F

层，是将 S

层的矩阵展开，然后拼接成 F

，

如图 (1.43) 所示

图 1.43: CNN 全展开层示意图

http://www.ma-xy.com 57 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

然后，再将 F

层作为小分类器的输入层进行运行。但是，这样展开拼接有一个问题，就是

展开之后的神经元输入太多了，导致小分类器的权重 w 矩阵是非常大的，不易求解。现在，我

们将 S

的每个输出矩阵 (feature map) 求平均，然后再将平均值合并作为 F

层 (小分类器的输

入)，如图 (1.44) 所示

图 1.44: average pooling 示意图

这样，

层有几个矩阵，小分类器就有几个输入神经元。注：

到

的形式可以改进。

称原本 S

到 F

为全连接；称改进后的 S

到 F

为 Average pooling。

NiN 的网络结构示意图

NiN 网络结构示意图如图 (1.45) 所示

图 1.45: NiN 网络结构示意图

基于 TensorFlow 实现的 NiN 网络如下

1 import te n s orflo w as t f d e f ni n _ cell ( input ) :

2 conv1 _ f i l t e r = t f . ge t_variabl e ( ’ c o n v 1 _ f i l t e r ’ , shape =[5 , 5 , 3 , 1 9 2 ] )

3 conv1 = t f . nn . r e l u ( t f . nn . conv2d ( input , c o n v 1 _ f i l t e r ) )

4 mlpconv1_ filter = t f . g et _variable ( ’ ml pconv1_ filter ’ , shape =[1 , 1 , 192 , 16 0 ] )

5 mlpconv1 = t f . nn . re l u ( t f . nn . conv2d ( conv1 , mlpconv1_filt er ) )

6 mlpconv2_ filter = t f . g et _variable ( ’ ml pconv2_ filter ’ , shape =[1 , 1 , 160 , 9 6 ] )

7 mlpconv2 = t f . nn . re l u ( t f . nn . conv2d ( mlpconv1 , mlpc onv2_fi lter ) )

8 max_pool1 = t f . nn . max_pool ( mlpconv2 , k s i z e = [1 , 3 , 3 , 1 ] , s t r i d e s = [ 1 , 2 , 2 , 1 ] )

9 conv2 _ f i l t e r = t f . ge t_variabl e ( ’ c o n v 2 _ f i l t e r ’ , shape =[5 , 5 , 96 , 19 2] )

10 conv2 = t f . nn . r e l u ( t f . nn . conv2d (max_pool1 , conv2_filter ) )

11 mlpconv3_ filter = t f . g et _variable ( ’ ml pconv3_ filter ’ , shape =[1 , 1 , 192 , 19 2 ] )

12 mlpconv3 = t f . nn . re l u ( t f . nn . conv2d ( conv2 , mlpconv3_filt er ) )

13 mlpconv4_ filter = t f . g et _variable ( ’ ml pconv4_ filter ’ , shape =[1 , 1 , 192 , 19 2 ] )

14 mlpconv4 = t f . nn . re l u ( t f . nn . conv2d ( mlpconv3 , mlpc onv4_fi lter ) )

15 max_pool2 = t f . nn . max_pool ( mlpconv4 , k s i z e = [1 , 3 , 3 , 1 ] , s t r i d e s = [ 1 , 2 , 2 , 1 ] )

程序来自微信公众号：DLdigest 深度学习每日摘要 (2017-05-09 )

http://www.ma-xy.com 58 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

16 conv3 _ f i l t e r = t f . ge t_variabl e ( ’ c o n v 3 _ f i l t e r ’ , shape =[3 , 3 , 192 , 192])

17 conv3 = t f . nn . r e l u ( t f . nn . conv2d (max_pool2 , conv3_filter ) )

18 mlpconv4_ filter = t f . g et _variable ( ’ ml pconv4_ filter ’ , shape =[1 , 1 , 192 , 19 2 ] )

19 mlpconv4 = t f . nn . re l u ( t f . nn . conv2d ( conv3 , mlpconv4_filt er ) )

20 mlpconv5_ filter = t f . g et _variable ( ’ ml pconv5_ filter ’ , shape =[1 , 1 , 192 , 1 0 ] )

21 mlpconv5 = t f . nn . re l u ( t f . nn . conv2d ( mlpconv4 , mlpc onv5_fi lter ) )

22 global_avg_pool = t f . nn . avg_pool ( mlpconv5 , k s i z e =[ 1 , 8 , 8 , 1 ] )

23 ret ur n global_avg_pool

NiN 的实验结果

图 1.46: NiN 与其它网络在 CIFAR-10 数据集上对比的实验结果

1.4.4 GoogLeNet

GoogLeNet 介绍

Szegedy 等设计的 GoogLeNet10在 2014 年的 ILSVRC 中获胜。它主要的贡献就是实现了一

个奠基模块。它能够显著的减少网络中参数的数量，AlexNet 中有 6 千万个，而它只有 4 万个。

此外，GoogLeNet 网络中没有使用卷积神经网络顶部的全连接层，而是使用了 average pooling

方法。ILSVRC2014 年时采用的 GoogLeNet 有 22 层，参数比 AlexNet 少了 12 倍，但准确度更

高 (这说明 AlexNet 中还有许多不重要的参数，AlexNet 还有很大的改进空间)。下面，我们来介

绍 GoogLeNet 的 2 种重要的策略。

(1)Motvation and High Level Considerations。直接提升深度卷积神经网络的方法是从深度

和宽度两方面增加尺寸的，但是大的尺寸会使网络中有许多参数，容易出现过拟合现象，特别是

当训练数据集不够大时。直接增加尺寸的另一个弊端是需要大量的计算资源。根本解决方法是将

全连接层变为系数层。早些时候，为了打破网络的对称性和提高网络学习能力，传统网络使用了

随机稀疏连接的方法。但是，非均匀系数网络的计算效率较低，我们可以将多个稀疏矩阵合并成

相关的稠密子矩阵的方法来解决。

(2)Incepion 结构。Inception 的主要思想是：怎样用密集成分来近似局部稀疏结构。GoogLeNet10中

设计的 Inception 结构如图 (1.47) 所示

http://www.ma-xy.com 59 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

图 1.47: Inception 结构示意图

我们采用大小不同的卷积对上一层的特征矩阵 (例如：128 个 100 ×100 的矩阵) 进行卷积操

作，提取不同维度的特征。这里卷积大小 (1,3,5) 不是必要的，可改。在卷积之后，将 3 个得到

的卷积后的特征图/矩阵 (maps) 拼接起来 (合并)。并且，为了使卷积后的 maps 的大小相同，在

给定卷积步长 s = 1 后，只要改变 pad = 0, 1, 2 即可。由于 pool 层在许多实验中表现良好，所

以也将其计算。但是 5 × 5 卷积核带来的计算量仍然是非常巨大的。为此，我们借鉴 NiN 的思

路，用 1 × 1 卷积来降维，如图 (1.48)

所示

图 1.48: Inception 结构 cccp 降维示意图

在 3 × 3 和 5 × 5 卷积前使用 1 × 1 卷积进行降维 (将输入图片降维，例如：256 → 64)。这

一层一般称为“瓶颈层”

(bottleneck layer)

，它减小了每一层的特征

map

的数量

，并由此减少了

计算量。例如：假设我们输入层有 256 个特征图片，有 256 个输出，并且假定 Inception 层只进

行 3 ×3 卷积操作，那么，它需要 256 × 256 × 3 × 3(60 万次) 次卷积操作。如果用一个 1 ×1 的

卷积核先将 256 卷积到 64，然后再对 64 个特征图片进行 3 ×3 卷积操作，则有 64 × 64 ×3 × 3

卷积操作，然后，将 64 个输出 maps 再用 1 × 1 卷积返回，那么，这个操作为

256 × 1 × 1 × 64 + 64 × 64 × 3 × 3 + 64 × 1 × 1 × 256 ≈ 7万

7 万和 60 万相比，少了近 10 倍。鉴于 GoogLeNet 在图片问题上有良好的表现，下面来介绍 4

个改进版本。

GoogLeNet - V1

GoogLeNet10网络的核心就是 Inception，其网络深度达到了 27 层。如此深的网络，它在 BP

反向传播过程中如何克服梯度消失问题呢？GoogLeNet 用了一个先验信息：层数较小的网络也

可能取得不错的分类效果。那么，深度网络中间层的特征对于分类来说，也是有很好的判别作用

(即用中间特征做判别)，所以，在中间的某些部分设置小的分类器来进行训练。训练阶段，总损

http://www.ma-xy.com 60 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

失为总分类器和中间小分类器损失的和；在测试阶段，小分类器被弃用。GoogLeNet 的网络结构

如图 (1.49) 所示

图 1.49: GoogLeNet 网络结构示意图

GoogLeNet 采用了模块组装的方式来搭建网络，这便于网络的添加和修改。并且，在网络

的最后采用了

average pooling

来替代

CNN

的全连接。

GoogLeNet

中仍然采用了

dropout

策略，

并在网络的中间层加了 2 个小分类器 softmax，以避免梯度消失。小分类器的结构如图 (1.50) 所

示

图 1.50: GoogLeNet 小分类器的结构图

average pooling 部分的卷积核大小为 5 × 5，步长 s > 3。1 × 1 的卷积核包含降维的 128 个

卷积核和 Relu，全连接层 FC 有 1024 个单元和修正线性激活，dropout 层的 dropped 的输出比

率为 20%，将 softmax 作为 1000 类的分类器的损失。

GoogLeNet - V1 最终 top-5 错误率在验证集和测试集上都是 6%，获得 2014 年的第一。

GoogLeNet 和其它网络的对比结果如图 (1.51) 所示

图 1.51: GoogLeNet 在 Top-5 上的结果

http://www.ma-xy.com 61 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

GoogLeNet - V2

2015.Sergey30引入 Batch-normalized Inception 被视为 Inception 第二代。Batch-normalized

在一层的输出上计算所有特征映射的均值和方差，并用这些值规定它们的响应，这相当于数据增

向 (whiteniy)，因此，使得所有神经图 (nurmal maps) 在同一范围有响应，而且是零均值，在下

一层不需要从输入数据中学习 oset 时，这有助于训练。相关实现可以参考下面的网址

。

GoogLeNet - V3

2015 年 12 月，该团队发布了 Inception-V3 版本8。在 Inception-V1 时期，能与 GoogLeNet

能一较高下的只有 VGG(这个下面介绍)，但相比之下，GoogLeNet 的计算效率要明显高于 VGG。

GoogLeNet 表现虽然良好，但是，要想通过简单放大 (大的卷积核)Inception 结构来构建更大的

网络则会立即增加消耗。

大的卷积核可以带来更大的感知范围，但这也意味着我们将要训练更多的参数，比如 5 × 5

与 3 ×3，二者的参数量为 25/9 ≈ 3。为此，Sergey loe 等提出用 2 个连续的 3 ×3 卷积 (s = 1)

组成小网络来替代 5 × 5。然而，这样有 2 个问题：¬这种替代会造成表达能力下降吗？即提取

的特征会减少吗；3 ×3 卷积之后，还要再激活吗？从大量的实验来看，表达能力不会下降，并

且，增加非线性激活会提高性能，即 5 × 5 可以用 2 个 3 ×3 代替。那么，我们是否可以考虑更

小的卷积核呢？比如 n × 1。

于是，任意的 n ×n 卷积核都可以通过 1 × n 结合 n × 1 来替代。作者发现，在网络前期使

用这种替代效果并不好，如果在中等大小的 feature map 上使用效果要好一些 (作者建议 map 大

小在 12 到 20 之间)。于是，原 GoogLeNet 的 inception 变为图 (1.52)(b)

图 1.52: inception-v3 示意图

图 (1.52)(a) 中用 2 个 3 ×3 来替代一个 5 ×5，图 (1.52)(b) 中用 n ×1 来替代 5 ×5 和 3 ×3。

当然，还可以将 Inception 设计为图 (1.53) 的形式。GoogLeNet - V3 的实现可以参考

https://github.com/nutszebra/googlenet_v2/blob/master/googlenet_v2.py

https://github.com/nutszebra/googlenet_v3

http://www.ma-xy.com 62 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

图 1.53: inception-v3-2 示意图

GoogLeNet - V4

2016 年 8 月，该团队再次更新了 Inception 的版本9 ：Inception-V4。Inception-V4 中吸收了

在

2015ILSVRC

中获胜的

ResNet

的特点，构建了

Inception-ResNet

模块。同时，文9中还发现，

ResNet 的结构可以极大的加速训练，同时性能也有提升，得到了一个 Inception-ResNet-V2 网络。

此外，该团队还设计了一个更深更优化的 Inception-V4 模型，能够达到和 Inception-ResNet-V2

相似的性能。值得一提的是 Inception-V4 中没有 Resdual 操作。

先来简单记一下 Resdual 操作，关于 ResNet 后面介绍。Resdual 的经典结构如图 (1.54) 所

示

图 1.54: Resdual 结构示意图

我们将 Inception 和 Resdual 相结合，得到 Inception-ResNet 的经典模块如图 (1.55) 所示

图 1.55: Inception-ResNet-V1 结构示意图

其余图片参考原文。网址

给出了 GoogleNet 的 MATLAB 实现。

1.4.5 VGG Net

VGG 是 ILSVRC2014 年比赛的第二名，仅次于 GoogLeNet，由 Karen Simanyan 和 Androw

Izsserman 实现21。它的主要贡献是展示出网络的深度是算法优良的关键。他们设计的最好的

https://github.com/mtmd/GoogleNet_MATLAB

http://www.ma-xy.com 63 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

VGG 网络包含 16 层，并且网络结构非常一致，统一使用 3 ×3 卷积层和 2 ×2pooling 层。但是

VGG 的计算量是非常大的，大量的参数导致它会占用很大的内存 (140M)，其中绝大多数参数都

是来自于一个全连接层 FC。后面，可以尝试将这个 FC 层去掉，以减少参数量。

VGG 同样是一种卷积神经网络，通常有 16 到 19 层，其网络结构如图 (1.56) 所示

图 1.56: VGG 网络结构图

注意，就像前面所说的那样，图 (1.56) 中的 conv 都是 3 × 3 大小，maxpool 都是 2 × 2 大

小。VGG 正是试图通过多个 3 × 3 卷积来替代更大的卷积核 (比如 5 × 5 和 7 ×7)，这也是前面

Inception 的策略。并且 VGG-E 第 45 块：256 ×256 和 512 ×512 个 3 ×3 是卷积核依次使用多

次，以提取到更多的特征 maps 以及这些 maps 的组合。其效果就等于是一个带有 3 个卷积层的

大型 512 × 512 的大分类器，这意味着要有大量的参数。

VGG 实现细节：dropout 只在前面 2 个 FC 中使用，在第 3 个 FC 中不用。使用批量为 256

的批量梯度算法 SGD，同样采用动量权重更新，动量参数为 0.9。VGG 在目标中使用了 L2 正

则项 (惩罚项)，罚权重为 5

−4

，dropout 率为 0.5，学习率初始值为 0.01，并在 validation error

达到瓶颈之前以 10 倍下降，直到 validation error 不再变化。在实验中，学习率共降过 3 次，迭

代次数有 370 千次，共 74 次对全部数据进行扫描。权重初始值使用 Pre-traing(预训练) 的方法：

先预训练一小部分网络，当网络稳定后再向前训练。每次初始化权重时，使用 N (0, 0.01)，偏置

b 的初始值为 0，传递函数使用 Relu。

1.4.6 ResNet

ResNet 简介

ResNet20是 ILSVRC2015 年的获胜者，由微软亚洲研究院的何凯明等研发，在图像分类、目

标检测等任务中，ResNet 的性能大幅度超越前一年的网络。残差网络的明显特征是有着相当深

的网络深度，从 32 层到 152 层，深度远超之前的网络。并且，更有甚者设计了 1001 层的网络结

构，其网络深度是令人吃惊的。残差网络使用了特殊的跳跃式连接，大量使用批量归一化 (batch

normalization)，并且网络的最后也没有使用 FC 层。

从前面介绍的 CNN 及其改进来看，似乎越深的网络表达能力越强。我们能不能将一个简单

的网络加深，使它变得更优呢 (不改变结构的情况下)？何凯明等人通过实验证明：在时间复杂度

相同的情况下，深度较深的网络性能会更优一下，但是一般的堆积网络块并不能使网络更好。堆

积的深层网络除了使计算量变大之外，另一大难题则是梯度消失 (infernation)，进而导致网络收

敛缓慢。2013 年，多伦多大学 Lei jimny Ba 和微软的 RichCarnana 发表了《Do Deepnets really

need to be deep?》一文，文中用一个浅层网络去模拟一个深层网络，结果得到 2 个只有 1 层的

浅层网络，但这个网络却能与深层网络相媲美。因此，作者提出，对浅层网络而言，可能还有许

http://www.ma-xy.com 64 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

多更好的网络结构和更好的学习算法等待我们开发 (这是重点)。同样，何凯明等在 ResNet 的原

文20中也做过实验，将网络的深度由 20 增加到 56，发现随着网络深度的加深，错误率却不降反

增，如图 (1.57) 所示

图 1.57: 20vs56 层 (简单堆积加深) 的结果

从图 (1.57) 中可以看出，简单增加网络深度不仅仅使测试集错误率提高，而且在训练集中错

误率也提高，这就排除了深度网络过拟合的可能 (如果仅在测试集中错误率提高，则是网络过拟

合)。模型中也使用了 Relu 和 BN 等防止梯度消失的策略，但最终结果表明：普通增加深度是有

问题的，至于问题出在哪里，这个还有待研究。

高速公路网络 HighWay Network

ResNet 可以视为 Highway network 的特例。Highway Network29是瑞士 3 位学者于 2015 年

提出的一种超深度的网络，为什么说是超深呢？原文29指出，他们能够训练 900 层的神经网络。

虽然只是层数加深，没有性能的提高，但是能训练就已经很不错了。他们还在文中给出了最深达

100 层的 Highway Net 的收敛情况，如图 (1.58) 所示

图 1.58: HighWayNetwork 的收敛情况

Highway Net 的工作受到了 LSTM(这个我们在 RNN 中介绍) 中 gate 的启发：既然梯度在

某些地方被阻碍了，那就让它直接通过这些阻碍层好了，不求导或者令导数为 1。HighwayNet 的

思想正源于此，并且，这也是 Highway 名称的由来。在 Highway 网络中，我们设网络层数为 L，

(l = 1, 2, . . . , L) 表示第 l 层的权重，H 为第 l 层的非线性函数，x

是第 1 层的输入，w

http://www.ma-xy.com 65 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

是第 1 层的权重，y

是第 1 层的输出，忽略偏置 b，并省略层 l 的标记，可以将输入输出写为

y = H(x, W

)

这里：H 是一个仿射变换，但是，它还可以有更一般的形式，在 Highway 中，我们添加 2 个新

的非线性转换 T (x, W

), C(x, W

)，y 为

y = H(x, W

)T (x, W

) + xC(x, W

)

我们定义 T 为转换门 (transform gate)，C 是传递门 (carry gate)。为了简单，令 C = 1 −T ，于

是有

y = H(x, W

)T (x, W

) + x[(1 − T )(x, W

)]

由于是 gate，所以 T 的取值为 0 或 1。我们可以看到

y =







x T = 0, 关闭

(

x, W

)

= 1

打开

这种思路是非常巧妙地，将上面的 y 关于 x 求导，有

∂y

∂x







I T = 0

′

(x, W

) T = 1

其中：I 是全 1 向量。上面的 y = x 代表着什么，想必也是了然的，这就是 Highway。并且

∂y

∂x

= I

也使梯度得以直接通过 (很“变态”的一种方法)。使用 TensorFlow 实现 HighwayNet 如下

1 de f highwayUnit ( input_layer , unit_id , is_ t r a i n i n g=True ) :

2 with t f . var iable_scope ( ’HighwayUnit_ ’+s t r ( unit_id ) , i n i t i a l i z e r=t f .

random_normal_initializer ( ) ) :

3 T = t f . l a y e rs . conv2d ( input_layer , 32 , ( 3 , 3 ) , padding=’ same ’ )

4 bn_layer1 = t f . c ontr i b . l a y e r s . batch_norm ( input_layer , i s _ t r a in i ng=is_ t r a i n i n g

)

5 relu _la ye r1 = t f . nn . r e lu ( bn_layer1 )

6 conv_layer1 = t f . l a y e r s . conv2d ( relu_layer1 , 32 , ( 3 , 3 ) , padding=’ same ’ )

7 bn_layer2 = t f . c ontr i b . l a y e r s . batch_norm ( conv_layer1 , i s _ t r a i n in g=is _ t r a i n i n g

)

8 relu _la ye r2 = t f . nn . r e lu ( bn_layer2 )

9 conv_layer2 = t f . l a y e r s . conv2d ( relu_layer2 , 32 , ( 3 , 3 ) , padding=’ same ’ )

10 ret ur n (1.0 −T)* input_layer+T* conv_layer2

ResNet 理论

下面正式进入到 ResNet 中。像 Highway 那样，ResNet 也使用了“直通”的方法，不过

ResNet 还采用了一些其他的技巧，从而使 ResNet 完全避免了梯度消失问题。

微信公众号：DLdigest 深度学习每日摘要 (2017-05-07)

http://www.ma-xy.com 66 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

我们知道，在一个浅层网络上累加/堆积一些 x

l+1

= y = x

是不改变网络的结果的，它只是

单纯的增加了网络的深度而已。但是，这样的“深”并非我们的初衷，我们希望加深网络来提高

网络的性能。先来看一下一般的网络结构，如图 (1.59) 所示

图 1.59: 一般的网络结构示意图

要求经过两个权重层/卷积层后，输入的 x

l+1

= x

。如果拟合/逼近一个恒等式 x

l+1

= H(x

)

不容易，可以转而拟合其误差，让其误差趋于

。并且由于要求

l+1

，所以二者的大小应该

是一样的。拟合误差的网络如图 (1.60) 所示

图 1.60: 误差块网络示意图

图 (1.60) 中，F (x

) 表示 x

l+1

− x

。当 f(x) = x 时，为了方便，忽略层 l 的下标，有

F (x) = W

σ(W

y = x + F (x)

H(x

) = f(y)

我们写出更一般的残差块的公式，要求 x

到 x

l+1

为 h(x

)，有

F (x) = W

+ σ(W

y = h(x) + F (x)

l+1

= H(x

) = f(y)

其中：x

是第 l 残差单元/残差块 (residual unit) 的输入特征 maps(input feature maps)；W

l,k|1⩽k⩽K

} 是第 l 层/残差块的权重，W

= (W

, W

)。K 是第 l 层的权重数量，或者说是第

l 个残差块的卷积层数；F 是残差函数；f 是传递函数，例如 f = Relu；h(x

) 是 x

的一个变换，

一般为恒等式 h(x

) = x

。

http://www.ma-xy.com 67 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

如果传递函数 f 也是一个恒等式，我们可以写出

l+1

= x

+ F (x

, W

)

将 L 个残差块堆积起来，则有

l+2

= x

l+1

+ F (x

l+1

, W

l+1

) = x

+ F (x

, W

) + F (x

l+1

, W

l+1

)

更一般的，有

= x

L−1



i=l

F (x

, W

)

这里，为了便于理解，可以将 F (x

, W

) 视为 0。对任何深度的 L 和任意的层/块 l，上式有一些

非常好的性质：

1. ∀L，特征 x

可以表示成 x

(∀l) 和

L−1



i=l

F (x

, W

) 的和；

2. ∀L，x

= x

L−1



i=0

F (x

, W

)，即 x

是所有残差 F (x

, W

) 求和后加上 x

；

记 ResNet 网络的最终误差为 E，E 关于 x

求导，有

∂E

∂x

∂E

∂x

∂E

∂x



1 +

∂

∂x

L−1



i=l

F (x

, W

)



上式表明，梯度

∂E

∂x

能够分解为 2 部分：

∂E

∂x

和

∂E

∂x

∂

∂x

L−1



i=l

F 。后面这部分

∂E

∂x

确保了信息/梯

度可以传递到任何层 l，并且保证了

∂E

∂x

不会消失。因为

∂

∂x

L−1



i=l

F 对 x

不会总是 −1，这里的

梯度已经不再是一般的连乘

∂

. . .

∂

的形式了，所以不会消失。

但是，要注意的是，前面假设了 h(x

) = x

，并且假设 x

l+1

= y

，这是两个非常强的约束，

一旦打破，上述关系式即不成立。

(1) 对于第一个假设。关于 h(x

) = x

是我们一直默认的，而且实验表明这种方法是较好的。

现在，将其改为 h(x

) = λ

，并且仍然假设 x

l+1

= y

(即传递函数 f 是恒等传递)，有

l+1

= λ

+ F (x

)

递归堆积，有

L−1



i=l

L−1



i=l

L−1



j=i+1

F (x

, W

)

或者简单记为

L−1



i=l

L−1



i=l

F (x

, W

)

http://www.ma-xy.com 68 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

其中：

F =

L−1



j=i+1

F (x

, W

)。

我们仍然记误差为 E，E 关于 x

求导，有

∂E

∂x

∂E

∂x



L−1



i=l

∂

∂x

L−1



i=l

F (x

, W

)



第一项

L−1



i=l

是非常危险的，如果对于所有的 i，λ

> 1，那么这一项会按指数方式增长；如果

对于所有的 i，有 λ

< 1，那么这一项会减小甚至消失。因此，梯度很依赖 λ

而 λ

又不定，所

以网络不稳定。

(2) 对于第二个假设。x

l+1

= f(y

) = y

，将 f 放宽，不要求其为恒等变换，但是仍然要将 x

直接传递给 x

l+1

。为此，将 f 移到旁边的残差分支上来，至于 f ≜ Relu 安放在哪里，可以参考

何凯明文献19中的 Fig4 和 Tab2，Fig4 如图 (1.61) 所示，Tab2 如图 (1.62) 所示

图 1.61: 传递函数的 6 种不同的位置比较

图 1.62: 传递函数 Tab2

Fig4 和 Tab2 中的比较表明：将 f = Relu 移到残差分支中，不仅可以满足之前的假设，而

且是这几种移动中最优的移动。接下来使用 TensorFlow 来实现上图 (1.61) 所示的 ResUnit

1 import te n s orflo w as t f

2 de f resU ni t ( input_layer , unit_id , is _ t r a i n i n g=True ) :

http://www.ma-xy.com 69 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

3 with t f . var iable_scope ( ’ ResUnit_ ’+s t r ( unit_id ) , i n i t i a l i z e r=t f .

random_normal_initializer ( ) ) :

4 bn_layer1 = t f . c ontr i b . l a y e r s . batch_norm ( input_layer , i s _ t r a in i ng=is_ t r a i n i n g

)

5 relu _la ye r1 = t f . nn . r e lu ( bn_layer1 )

6 conv_layer1 = t f . l a y e r s . conv2d ( relu_layer1 , 32 , ( 3 , 3 ) , padding=’ same ’ )

7 bn_layer2 = t f . c ontr i b . l a y e r s . batch_norm ( conv_layer1 , i s _ t r a i n in g=is _ t r a i n i n g

)

8 relu _la ye r2 = t f . nn . r e lu ( bn_layer2 )

9 conv_layer2 = t f . l a y e r s . conv2d ( relu_layer2 , 32 , ( 3 , 3 ) , padding=’ same ’ )

10 ret ur n input_layer+conv_layer2

12 i f __name__ == ’__main__ ’ :

13 with t f . S essi o n ( ) as se s s :

14 input_layer = t f . g et_variab le ( ’ input ’ , shape = [ 4 ,1 0 ,10 ,32] , dtype=t f . f l o a t3 2 )

15 out = resUnit ( input_layer , 1)

16 s e s s . run ( t f . g l o b a l _ v a r i a b l e s _ i n i t i a l i z e r ( ) )

17 p r i n t s e ss . run ( out )

下面将残差块堆积起来，形成 DeepResNet，如图 (1.63) 所示

图 1.63: DeepResNet 网络结构图

ResNet 层数逐步加深的训练误差如图 (1.64) 所示

图 1.64: ResNet 层数逐步加深的训练误差

从图 (1.64) 中可以看到，随着 ResNet 网络的加深，训练误差逐渐下降，没有出现普通堆积

的误差增加的情况。

下面，我们简记一下 ResNet 的结果。1. 2015 年 ResNet 原文20的 Fig4 和 Tab2，在 ImageNet

数据集上进行了平整网络 plain network 和残差网络的收敛性对比；2. 2015 年 ResNet 原文20的

Tab4，在 ImageNet 数据集上进行和 ResNet 与其它网络的的单一模型 top-1 和 top-5 的对比

实验；3. 2015 年 ResNet 原文20的 Tab5，在 ImageNet 数据集上进行和 ResNet 与其它网络的

的集成模型 top-5 的对比实验；4. 2016 年 1001 层残差网络的原文19的 Fig3 和 Fig6，展示了

http://www.ma-xy.com 70 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

1001 层网络在 CIFAR-10 数据上的训练收敛图；5. 2016.Andreas 在文2中指出，ResNet 其实质

上并非一个非常深的网络，而是由指数个非常前的网络叠加而成。该论文同时指出，查看网络除

了要看网络的深度和宽度 (特征提取的多少) 之外，还应该查看网络的 multiplicity。重要观点查

看原文 Fig1 即可。6. 2016.Zhang37提出多级残差网络。网络结构参考原文37的 Fig1 的 RoR、

Fig2 的 RoR-3 和 Fig3 的 Pre-RoR-3 或 RoR-3-WRN。7. 2016.Abdi1同样提出多级残差网络。8.

2016.Zagoruyko36提出 WResNet(WRN)，将 ResNet 网络性能改善。9. 2016.Brian11对 ResNet

网络内部的特征进行了可视化。10. 2016.Gao16提出随机丢弃路径的网络。整个网络结构是随

机的，并将该网络在 CIFAR-10 数据集上进行测试。11. 2016.Gustav15提出了分形网络 (fractal

network) 的概念，并在此基础上采用 dropout 方法进行训练。

1.4.7 MATLAB 应用实例

MATLAB 自带 CNN 工具

MATLAB 自带的卷积神经网络 CNN 命令如表 (1.3) 所示

http://www.ma-xy.com 71 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

表 1.3: CNN 命令

命令说明

trainingOptions Options for training neural network

trainNetwork Train a convolutional network

imageInputLayer Image input layer

convolution2dLayer Convolutional layer

reluLayer Rectied(改正) Linear Unit (ReLU) layer

crossChannelNormalizationLayer Channel-wise local response normalization layer

averagePooling2dLayer Average pooling layer object

maxPooling2dLayer Max pooling layer

fullyConnectedLayer Fully connected layer

dropoutLayer Dropout layer

softmaxLayer Softmax layer for convolutional neural networks

classicationLayer Create a classication output layer

regressionLayer Create a regression output layer

activations Compute convolutional neural network layer activations

predict Predict responses using a trained convolutional neural network

classify Classify data using a trained convolutional neural network

deepDreamImage Visualize(形象) network features using deep dream

alexnet Pretrained AlexNet convolutional neural network

vgg16 Pretrained VGG-16 convolutional neural network

vgg19 Pretrained VGG-19 convolutional neural network

importCaeLayers Import convolutional neural network layers from Cae

importCaeNetwork Import pretrained convolutional neural network models from Cae

SeriesNetwork Series network class

TrainingOptionsSGDM Training options for stochastic gradient descent with momentum

Layer Network layer

ImageInputLayer Image input layer

Convolution2DLayer Convolutional layer

ReLULayer Rectied(改正) Linear Unit (ReLU) layer

CrossChannelNormalizationLayer Channel-wise local response normalization layer

AveragePooling2DLayer Average pooling layer object

MaxPooling2DLayer Max pooling layer

FullyConnectedLayer Fully connected layer

DropoutLayer Dropout layer

SoftmaxLayer Softmax layer for convolutional neural networks

ClassicationOutputLayer Classication output layer

RegressionOutputLayer Regression output layer

http://www.ma-xy.com 72 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

MatConvNet

MatConvNet 是一个少有的基于 MATLAB 语言的深度学习工具箱，主要用于卷积神经网络

(恰好就是我们这章所讲的内容)。MatConvNet 包含了上面介绍的各大网络，并且由于上面的网

络都比较大，MatConvNet 在 mat 数据格式里已经提供了网络的基本结构，只需要将样本数据

带入训练即可。MatConvNet 基本模型示例：

1 %% MatConvNet

2 %1 、安装编译 MatConvNet ( needed once ) .

3 cnnMatFile = f u l l f i l e ( matlabroot , ’ work ’ , ’DL_song ’ , ’MatConvNet ’ ) ;

4 i f ~ e x i s t ( cnnMatFile , ’ f i l e ’ ) % download only once

5 dis p ( ’ Untar pre−t r a i ned CNN model . . . ’ ) ;

6 MatConvNetPath = ’D: \ Program F i l e s \MATLAB\R2016a\work\ 深度学习 \ 深度学习工具箱 /

matconvnet−1.0−beta23 . t a r . gz ’ ;

7 untar (MatConvNetPath , cnnMatFile ) ;

8 end

9 cnnMatFile = f u l l f i l e ( cnnMatFile , ’ matconvnet−1.0−beta23 ’ ) ;

10 cd ( cnnMatFile )

11 % addpath matlab

12 %编译

13 run matlab/vl_compilenn ;%CPU编译

14 %GPU编译

15 vl_compilenn ( ’ enableGpu ’ , true )

16 %检测

17 vl_testnn

18 vl_testnn ( ’ gpu ’ , tru e )

19 %% VGG−fac e ( 人脸识别模型 )

20 % 下载已经训练好的模型 ( needed once ) . 注意：下载可能需要时间

21 u r l w r i te ( . . .

22 ’ http ://www. v l f e a t . org/matconvnet/models/imagenet−vgg−f . mat ’ , . . .

23 ’ imagenet−vgg−f . mat ’ ) ;

24 % Setup MatConvNet .

25 run matlab/vl_setupnn ;

26 % Load a model and upgrade i t to MatConvNet cur ren t v e r s i o n .

27 net = load ( ’ imagenet−vgg−f . mat ’ ) ;

28 net = vl_simplenn_tidy ( net ) ;

29 % Obtain and pr e p roc e s s an image .

30 im = imread ( ’ peppers . png ’ ) ;

31 im_ = s i n g l e (im) ; % note : 255 range

32 im_ = imr e s i z e (im_, net . meta . n or mal iz ati on . imageSize ( 1 : 2 ) ) ;

33 im_ = im_ − net . meta . n ormal iz ati on . averageImage ;

34 % Run the CNN.

35 r e s = vl_simplenn ( net , im_) ;

36 % Show the c l a s s i f i c a t i o n r e s u l t .

37 s c or e s = squeeze ( gather ( r e s ( end ) . x ) ) ;

38 [ bestScore , bes t ] = max( s c or e s ) ;

39 fi g u r e ( 1 ) ; c l f ; imagesc ( im) ;

40 t i t l e ( s p r i n t f ( ’%s (%d) , s c o r e %.3 f ’ , . . .

41 net . meta . c l a s s e s . d e s cr i p t io n { best } , best , be stS co re ) ) ;

42 %% DAG模型

43 % setup MatConvNet

44 run matlab/vl_setupnn

http://www.ma-xy.com 73 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

45 % 下载已经训练好的模型 ( needed once )

46 u r l w r i te ( . . .

47 ’ http ://www. v l f e a t . org/matconvnet/models/imagenet−goo glenet−dag . mat ’ , . . .

48 ’ imagenet−goog lenet−dag . mat ’ ) ;

49 % load the pre−t r a i n ed CNN

50 net = dagnn .DagNN. l oadob j ( load ( ’ imagenet−g ooglenet−dag . mat ’ ) ) ;

51 net . mode = ’ t e s t ’ ;

52 % load and p r epr o c ess an image

53 im = imread ( ’ peppers . png ’ ) ;

54 im_ = s i n g l e (im) ; % note : 0−255 range

55 im_ = imr e s i z e (im_, net . meta . n or mal iz ati on . imageSize ( 1 : 2 ) ) ;

56 im_ = bsxfun (@minus , im_, net . meta . no rmali zatio n . averageImage ) ;

57 % run the CNN

58 net . eva l ({ ’ data ’ , im_}) ;

59 % obt ain the CNN otuput

60 s c or e s = net . var s ( net . getVarIndex ( ’ prob ’ ) ) . value ;

61 s c or e s = squeeze ( gather ( s c o res ) ) ;

62 % show the c l a s s i f i c a t i o n r e s u l t s

63 [ bestScore , bes t ] = max( s c or e s ) ;

64 fi g u r e ( 1 ) ; c l f ; imagesc ( im) ;

65 t i t l e ( s p r i n t f ( ’%s (%d) , s c o r e %.3 f ’ , . . .

66 net . meta . c l a s s e s . d e sc r i p ti o n { best } , best , be st Sco re ) ) ;

我们还可以用 MATLAB 结合 MatConvNet 来建立网络，下面给出一个示例：

1 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

2 %% 这个例子展示深度学习模型CNN在图像识别中的应用

3 %Note : 这个例子需要下面工具箱的支持：

4 % Computer Vision System Toolbox ? ,

5 % Image Pr oce ss ing Toolbox ? ,

6 % Neural Network Toolbox ? ,

7 % Pa r a l l e l Computing Toolbox ? ,

8 % S t a t i s t i c s and Machine Learning Toolbox ? ,

9 % a CUDA−capable NVIDIA? GPU with compute c a p a b i li t y 3.0 or high er .

10 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

11 %% 1、系统检验：为了检验你的计算机有一个CUDA−capable NVIDIA? GPU with compute

c a p ab i li t y 3.0 or higher .

12 % 获得GPU设备的信息 (GPU要求是NVIDIA的 )

13 d e v i c e I nf o = gpuDevice ;

14 % 检查GPU计算能力

15 computeCapability = s tr2 dou ble ( d e v i c e I n f o . ComputeCapability ) ;

16 a s s er t ( computeCapability > 3. 0 , . . .

17 ’ This example re q u i r e s a GPU dev ice with compute c a pa b i l i t y 3 . 0 or h igher . ’ )

18 %% 2、下载图像数据

19 % 从下面的网址下载压缩的数据

20 u r l = ’ http : / /www. v i s i o n . c a l t e c h . edu/Image_Datasets/Caltech101 /101 _ObjectCategories .

ta r . gz ’ ;

21 % 将结果储存在一个临时文件夹

22 outputFolder = f u l l f i l e ( tempdir , ’ ca lte ch1 01 ’ ) ; %设置下载路径 ( 图像数据下载在哪里 )

23 i f ~ e x i s t ( outputFolder , ’ d i r ’ ) %如果文件夹不存在，则下载并保存到该文件夹路径

24 dis p ( ’ Downloading 126MB Caltech101 data s et . . . ’ ) ;

25 untar ( url , outputFolder ) ;

26 end

http://www.ma-xy.com 74 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.4 卷积神经网络 CNN

27 %% 3、加载图像数据

28 root Fo lder = f u l l f i l e ( outputFolder , ’ 101 _ObjectCategories ’ ) ;

29 c a t e g o r i e s = { ’ a ir p l a n e s ’ , ’ f e r r y ’ , ’ laptop ’ };%类别标签

30 % 创建一个 ImageDatastore 来帮助您管理数据。因为 ImageDatastore 作用于图像文件位置 , 图像不

加载到内存中 , 直到读 , 使其有效使用大型图像集合。

31 imds = imageDatastore ( f u l l f i l e ( rootFold er , c a t eg o ri e s ) , ’ LabelSource ’ , ’ foldernames ’ )

;

32 % imd变量现在包含图片和每个图像的分类标签。自动分配的标签图像文件的文件夹的名称。

33 t b l = countEachLabel ( imds )% 使用 countEachLabel 总结每个类别的图片数量。

34 % 将 3个类别中的图片数量取相同−−−67

35 minSetCount = min( t b l { : , 2} ) ; %确定最小的类别数

36 % 用 spl itEac hL abel 来随机选取图片，并使每个类别的图片大小为 67

37 imds = splitEa chLab el ( imds , minSetCount , ’ randomize ’ ) ;%imds 包含图片和类别

38 % 再次展示个类别的数量

39 countEachLabel ( imds )

40 % 找到每个类别的第一个图片

41 a i rp l a ne s = f i n d ( imds . Labels == ’ ai r p la n e s ’ , 1) ;

42 f e r r y = f i nd ( imds . Labels == ’ f e r r y ’ , 1) ;

43 laptop = fi n d ( imds . Labels == ’ laptop ’ , 1) ;

44 % 将图片展示出来

45 fi g u r e

46 s ubplot (1 ,3 , 1 ) ;

47 imshow( imds . F i l e s { a i rp l a ne s })

48 s ubplot (1 ,3 , 2 ) ;

49 imshow( imds . F i l e s { f e r r y })

50 s ubplot (1 ,3 , 3 ) ;

51 imshow( imds . F i l e s { laptop })

52 %% 下载CNN模型 (MatConvNet)

53 % Location of pre−t r a i n ed ”AlexNet”

54 cnnURL = ’ http : //www. v l f e a t . org /matconvnet/models/ beta16/imagenet−ca ff e−al ex . mat ’ ;

55 % St ore CNN model in a temporary f o l d e r

56 cnnMatFile = f u l l f i l e ( tempdir , ’ imagenet−ca f f e−alex . mat ’ ) ;

57 i f ~ e x i s t ( cnnMatFile , ’ f i l e ’ ) % download only once

58 dis p ( ’ Downloading pre−t r a i n ed CNN model . . . ’ ) ;

59 websave ( cnnMatFile , cnnURL) ;

60 end

61 %% 加载CNN模型

62 % Load MatConvNet network into a SeriesNetwork

63 convnet = helperImportMatConvNet ( cnnMatFile )

64 % 查看CNN结构

65 convnet . Layers

66 % 查看第一层网络

67 convnet . Layers ( 1 )

68 % 查看最后一层网络

69 convnet . Layers ( end )

70 % ImageNet 分类任务类名称的数量

71 numel ( convnet . Layers ( end ) . ClassNames )

72 %% Pre−pr oces s Images For CNN

73 % 如上所述， ConvNet的输入只能是RGB图像 227−by−227。

74 % Set the ImageDatastore ReadFcn

75 imds . ReadFcn = @( fil ena me ) readAndPreprocessImage ( f ile nam e ) ;

76 %% 设置训练集和测试集

77 % 将集分为训练和验证数据。选择图像从每组训练数据的 30%, 其余 70%,验证数据。

http://www.ma-xy.com 75 http://www.ma-xy.com

http://www.ma-xy.com

1.4 卷积神经网络 CNN 第一章深度学习

78 % 随机分割来避免结果的偏差。训练集和测试集将由CNN模型处理。

79 [ t r a i n i ngSet , t es t S et ] = split Ea chLab el ( imds , 0 .3 , ’ randomize ’ ) ;

80 %% 观察中间层提取的特征

81 % 得到第二卷积层的网络权重

82 w1 = convnet . Layers ( 2) . Weights ;

83 % S cal e and r e s i z e the weights f o r v i s u a l i z a t i o n

84 w1 = mat2gray (w1) ;

85 w1 = im r e s i z e (w1, 5 ) ;

86 % Display a 混合图 of network weights . There are 96 个体 s e t s of

87 % weights in the f i r s t l ayer .

88 fi g u r e

89 montage (w1)

90 t i t l e ( ’ F ir s t co n v o l ution a l la ye r weights ’ )

91 % 注意网络的第一层已经学会过滤器捕捉 blob 和边缘特征。

92 % 这些 “ 原始 ” 功能被更深的网络层处理 , 并结合早期功能形成更高层次的图像特征。

93 % 这些更高层次特性更适合识别任务 , 因为他们将所有的原始功能合并到更丰富的图像表示

94 % You can e a s i l y extract fe a t u re s from one of the deeper la y e r s using the a c t i v at i o n s

method .

95 % S el e c t i n g which o f the deep l a y e r s to choose i s a desig n choice ,

96 % but t y p i c a l l y s ta r t i n g with the l a y er r i g ht be f ore the c l a s s i f i c a t i o n l a ye r i s a

good pl a ce to s t a r t .

97 % In convnet , the th i s l a y er i s named ’ fc7 ’ .

98 Let ’ s e x t r a c t t r a i ni n g f e a t u re s using that l a ye r .

99 fe at ure Lay er = ’ f c 7 ’ ;

100 trainin g F e a t u r e s = a c ti v a t i o ns ( convnet , t r ainin g S e t , feat ureLayer , . . .

101 ’ MiniBatchSize ’ , 32 , ’ OutputAs ’ , ’ columns ’ ) ;

102 % 注意 , 激活计算GPU和 “ MiniBatchSize ” 设置 32 确保CNN和图像数据适合GPU内存。

103 % 你可能需要降低 “ MiniBatchSize ” 如果你的GPU耗尽内存。

104 % 此外 , 激活输出安排列。这有助于加速多级线性支持向量机训练。

105 %% Train A M u lt i c l a ss SVM C l a s s i f i e r Using CNN Features

106 % Get tr a i n in g l a b e l s from the tra i n i n gSe t

107 t r a i n i n g L a b e ls = t r ai nin g S e t . Labels ;

108 % Train mu l t ic l a s s SVM c l a s s i f i e r us ing a f a s t l i n e a r so l v e r , and s e t

109 % ’ ObservationsIn ’ to ’ columns ’ to match the arrangement used f o r tr a i ni n g

110 % f ea t ur e s .

111 c l a s s i f i e r = f i t c e c o c ( tra i nin g Fea t ure s , tr a i ning L a bels , . . .

112 ’ Learners ’ , ’ Linear ’ , ’ Coding ’ , ’ on e v s a ll ’ , ’ ObservationsIn ’ , ’ columns ’ ) ;

113 %% 评估分类器

114 % Extract t e s t f e a t u r es usin g the CNN

115 testFe a t u r e s = a c t i v at i o n s ( convnet , t e s tSet , feature Layer , ’ MiniBatchSize ’ ,3 2) ;

116 % Pass CNN image f e a tu r e s to tr a i n ed c l a s s i f i e r

117 pr e dic t edL a bel s = p r e d i c t ( c l a s s i f i e r , te s t F e a t u res ) ;

118 % Get the known l a b e l s

119 t e s t L a b el s = te s tS e t . Labels ;

120 % Tabulate the r e s u l t s using a con fus ion matrix .

121 confMat = confusionmat ( t e s tLa b e ls , p redi cted Labe l s ) ;

122 % Convert conf usi on matrix in t o perc entag e form

123 confMat = bsxfun ( @rdivide , confMat , sum( confMat , 2 ) )

124 % Display the mean accuracy

125 mean( diag ( confMat ) )

126 %% 对新图像进行分类

127 newImage = f u l l f i l e ( rootFold er , ’ a ir p l a ne s ’ , ’ image_0690 . jpg ’ ) ;

128 % Pre−pr oces s the images as r e q uire d f o r the CNN

http://www.ma-xy.com 76 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.5 循环神经网络 RNN

129 img = readAndPreprocessImage (newImage ) ;

130 % Extract image fe a t u r e s using the CNN

131 imageFeatures = a c t i va t i o n s ( convnet , img , featur eLa yer ) ;

132 % Make a p r e d icti o n using the c l a s s i f i e r

133 l a b e l = p re d ic t ( c l a s s i f i e r , imageFeatures )

134

1.5 循环神经网络 RNN

todo: 这是很有必要补充的一章！！！

1.6 对抗生成网络 GAN

1.6.1 引言

对于生成模型而言，我们的任务是拟合 (估计) 样本分布，并从分布中生成/采样样本。假设

你已经有了 GAN 的思想：用生成器 G 生成假样本，将假样本和真样本送进判别器 D 中进行真

假判别。判别器 D 的目标是使假样本被判别为真的概率尽可能小，真样本被判别为真的概率尽

可能大；生成器 G 的目标是使假样本为真的概率尽可能大。判别器 D 和生成器 G 交替进行训

练，每训练 1 步 G 要训练 k 步 D。

现在，我们来考虑这样的生成器 G(generator)：

1. 是否需要训练判别器？我们可以将判别器的判别水平提前固定，只有生成器生成的图片/样

本能骗过判别器即可。就像一个学生和一个美术老师一样，老师要求学生画一个狮子，而

学生从未见过狮子，于是他随便画了个，交给老师，老师说这个不是，狮子尾巴有个球，哪

哪哪要改 (学生见过其它动物，未见过狮子，并且老师也有一定的知识，老师可以说狮子和

……很像)，于是学生回去改，再交再改直到老师/判别器满意为止。

2. 判别器和生成器时训练。我们先将判别器训练到一定的水平，然后再开始生成样本，判别

器的目标是使生成样本属于已有样本的概率最小 (即在生成器固定的情况下，使概率最小)，

生成器的目标是使概率最大。老师会通过学生提交的作品提高自己的要求/判别率 (无论生

成器给出一个什么样的样本，我都要给它判成假的，如果判别效果不好，我就去修改判别

器。生成器要让最好的判别效果最差)。

3. 多个判别器。我们设定多个判别器作为老师 (判别器判别率固定也可，渐渐提高也可)，然

后让生成器去生成样本，要让多个导师都认可才可以。这是一个什么问题？生成器是样本

分布的拟和吗？

设有生成器 G 产生的样本分布函数为 P

，密度函数为 p

，假样本为 x ∼ P

；真实样本分

布函数为 P

，密度函数为 p

，真样本为 x ∼ P

。我们现在是从 P

中采样一个 x，并于真实样

稿子已经有了，我们正在想要不要添加进来。。。

http://www.ma-xy.com 77 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

本进行判别，即将 P

产生的 x 和 P

产生的 x 输入到判别器中进行判别。如果判别器 D 不能

辨识真伪，我们就说在 D 下，P

是 P

的估计。

我们知道，一般的生成器 G 是一个生成网络，或者说 P

是没有显示表达式的，比如 P

N(µ, σ

)。回忆一下概率中的采样过程：x = F

−1

(z), z ∼ U[0, 1]，其中，F 为 x 的分布函数，F

−1

是 F 的逆，z 是均匀分布 U 的样本。这就是从分布 F 采样 x 的过程，注意到这种方法要求 F

可逆 (当然还有许多其它的采样方法，这里不做详细说明)。如果事先不知道 F 的具体形式，我

们该怎么办呢？简单，毕竟我们的生成器 G 用的神经网络嘛，我们不用神经网络来求 F ，而是

直接表示 F

−1

。用神经网络 (生成器 G) 表示 F

−1

，于是有

x = G(z) z ∼ U[0, 1]

这里的 x 即是生成器 G 带来的样本 x ∼ P

。如果说 G 是什么，G 是 P

−1

，即 G 是估计分布

的逆。至此，已经有了真实样本 x、真实分布 P

可以用样本来估计) 以及生成器 G 产生

的假样本 x 和估计分布 P

还可以用假样本估计)。

现在考虑能用这两个样本数据 x ∼ P

, x ∼ P

来做什么。最终目标是通过二者来说明生成

器 (生成网络)G 的好坏，以及如何指导我们构建好的生成器。一个直观的想法是通过 P

与 P

的距离/散度来评价 G 的好坏。

不考虑判别器 D

先不考虑 GAN 中的判别器 D(GAN 中用 D 来辨识真假样本 (x, x)，以此得到更好的 G)，

设 x 是来自 P

的样本数据，x = {x

, x

, . . . , x

} 共 n 个样本；x ∼ P

是生成器 G 带来的假

样本 (假设假样本有许多个)。¬如果 x ∼ P

是一个随机变量，我们会问来自 P

的一个假样本

x ∼ P

是否在真实样本分布 P

内？如果 x ∼ P

是一随机向量，我们会问来自 P

的一个假样

本 x ∼ P

是否在真实样本分布 P

内？®如果 x ∼ P

是一随机矩阵 (图片)，我们会问来自 P

的一个假样本 x ∼ P

是否在真实样本分布 P

内？

明显的一个问题是：我们不能问单一的假样本 x ∼ P

是否在 P

内，只能看到 x ∼ P

在

内的概率值。我们希望假样本

在

的概率和在

的概率值相等或者差不多，即

和

相似。这又回到了 P

, P

相似程度的度量，如图 (

1.65)(a)(b)

所示

图 1.65: 单一样本在 2 个分布中的概率值比较图

当然，如果从单一样本的角度来看，从 P

中按概率抽取一个样本 x

∗

，希望 x

∗

和 E

x∼P

(x)

接近，或者更近一步的说，我们希望两个总体 P

, P

的均值相等。这变成了两总体均值相等检验

问题，其示意图如图 (1.66) 所示

http://www.ma-xy.com 78 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

图 1.66: 总体均值是否相等示意图

考虑固定的判别器 D

现在，对于真假样本 x ∼ P

, x ∼ P

，考虑一个判别器 Ditector。并且，这里的判别器 D 是

固定的，即 D 已经训练好了，在训练过程中 D 不再训练。而 GAN 中的 D 是需要训练的。我

们从 P

中生成了 n 个样本 {x

}

i=1

，从 P

中产生 n 个样本 {x

}

i=1

，将二者混合在一起，输入

到 D 中，对于每一个样本 x，D 都会给出 x 被判别为真的概率，记这个判别概率为 D(x)(D(x)

是样本 x 被判为来自 P

的概率)。自然希望求 G，使 G 带来的样本 x ∼ P

被判为 P

的概率

D(x ∼ P

) 尽可能高 (其实，没有必要将 x ∼ P

输入到判别器 D 中)，即

max



i=1

D(x

)

s.t. x

∼ P

, i = 1, 2, . . . , n

D 中含有 P

的特征，当 G 能够欺骗 D 时，说明 P

也有了 P

的特征，进一步 x ∼ P

可以充

当 P

的样本。我们将上面的表达式写成平均值的形式，有

max



i=1

D(x

), x

∼ P

上式等价于

max

x∼P

D(x)

等价于

min

x∼P

[1 − D(x)]

当然，我们可以将 D(x) 的形式进行变换，比如 log D(x) 或者 log(1 − D(x))。求解上面的

优化问题，最终会得到一个 G，我们称 G 是在 D 下的生成器，P

是在 D 下的 P

的估计。

在这一部分中，是在 D 的判别下让 x 使 P

的概率最大。回到前一部分，对于一个给定的

x ∼ P

，我们也会有 x 在 P

中的概率，即假样本 x 在真分布 P

中的概率，如图 (1.67) 所示

图

1.67:

假样本在真分布的概率示意图

http://www.ma-xy.com 79 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

于是也可以设定目标

max

x∼p

(x)

其中：P

(x) 表示样本 x ∼ P

在 P

的概率。这里的 P

就充当了判别器 D，而判别器 D 充当

了极大似然估计中的似然函数 (样本 x ∼ P

在 P

或者 D 下出现的概率最大)。所以，在这一部

分中，还可以对 G 设置联合概率最大的目标，如下

max

D(x)

x∼P

= D(x

)D(x

) ···D(x

)

max

(x)

,...,x

iid

∼P

= P

) ···P

)

注意到，生成器 G 的好坏与 D 的判别率有直接关系。

可变动的判别器 D

在上一部分，我们设定判别器 D 是固定的，现在，假设在对真假样本 (x, x) 进行判别时，D

也在不断的学习。

在每次对 G 进行训练/迭代之前，我们都训练一下 D。直观的说：第 t 次迭代时，从 P

中

产生了 n 个样本，通过 D 判别后，找到了 G 的修正方案 (梯度)，然后 G 更新为 G。在 t + 1

次迭代时，从 P

中再次产生 n 个新样本，问题是：还用那个老旧的 D 来做判别吗？不！我们

用一个新的 D 来做判别 (可以再找其它的判别模型进行判别，还可以联合判别，这个之后再讨

论)，这里不打算换用其它类型的判别器，仍然在 D 上做，但要求 t + 1 时刻的 D 更准确。我们

需要训练 D，要训练 D 则需要用于训练的样本数据，这里有两种方案：1 种是样本不变，1 种是

将 x ∼ P

加入到 D 的训练当中。采用第二种方案，将 x ∼ P

的标签值设置为 −1 或 0，表示

“假”，然后训练 D 即可。

当然，在 GAN 中，作者给 D 的训练设置了目标：要求 D 使 x ∼ P

被判为真样本的概率

D(x ∼ P

) 尽可能大，x ∼ P

被判为真样本的概率 D(x ∼ P

) 尽可能小，即

max



i=1

D(x

)

,...,x

∼P

min



i=1

D(x

)

,...,x

∼P

将上式改为均值形式，有

max

x∼P

D(x)

min

x∼P

D(x)

其中，第二个目标等价于

max

x∼P

−

(

)]

http://www.ma-xy.com 80 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

将上述两个目标合并，有

max

x∼P

[D(x)] + E

x∼P

[1 − D(x)]

捋一下：当前时刻 t 更新完 G 之后 G

，在 t + 1 时刻，要先训练一会儿 D(得到 D

t+1

)，然

后再用新的 D

t+1

来进行判别，求 G 的更新方向 G

t+1

= G

+ ∆G

。对于 G，我们的目标是

min

x∼P

[1 − D(x)]

对于 D，目标是

max

x∼P

[D(x)] + E

x∼P

[1 − D(x)]

将上述两个目标合并，形成二层规划或者最小最大规划，有

min

max

x∼P

[D(x)] + E

x∼P

[1 − D(x)] (1.3)

1.6.2 Vanilla GAN

原始 GAN 模型

在 GAN 原文14中，作者将上述目标 (1.3) 的判别概率 D(x) 变为了 log D(x)，有

min

max

V (D, G) = E

x∼P

[log D(x)] + E

x∼P

[log(1 − D(x))]

再将 x ∼ P

改写为 x = G(z), z ∼ U[0, 1]，将 U [0, 1] 扩展为 P

，有

min

max

V (D, G) = E

x∼P

[log D(x)] + E

z∼P

[log(1 − D(G(z)))] (1.4)

下面来分析一下 GAN 的优化模型 (1.4)。对于 min

max

，¬先固定 G 来看 max

：

定理 (最优判别器 D) 在 G 固定的条件下，最优判别器 D

为

∗

(x) =

(x)

(x) + p

(x)

证明给定 G，训练 D 就是求解

max

V (G, D) = E

x∼P

[log D(x)] + E

z∼P

[log(1 − D(G(z)))]

而

V (G, D) =



(x) log D(x)dx +



(z) log(1 − D(G(z)))dz



(x) log D(x) + p

(x) log(1 − D(x))dx

对于函数 a log(y) + b log(1 − y)，∀(a, b) ∈ R

/{0, 0} 在 [0, 1] 处取得最大值

a+b

。

注意，这里是密度函数 p

, p

。

http://www.ma-xy.com 81 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

在得到最优判别器 D

∗

的情况下，来求 min

V (G, D

∗

)。我们先将 D

∗

带入到 V (G, D)，

有

V (G, D

∗

) = E

x∼P

[log D

∗

(x)] + E

z∼P

[log(1 − D

∗

(G(z)))]

= E

x∼P

[log D

∗

(x)] + E

x∼P

[log(1 − D

∗

(x))]

= E

x∼P



log

(x)

(x) + p

(x)



+ E

x∼P



log

(x)

(x) + p

(x)



令 C(G) = V (G, D

∗

)，则要求 min

C(G)。

定理当且仅当 p

= p

时，C(G) 有全局极小点，且 C(G) 在此点处的值为 −log 4。

证明考虑 p

= p

，则 D

∗

(x) =

，于是

C(G) = log

+ log

= −log 4

= E

x∼P

(−log 2) + E

x∼P

(−log 2)

为了表明 p

= p

是最小点，−log 4 是最小值，我们将 C(G) 减去 −log 4。如果 C(G) + log 4 ⩾ 0，

则表明 C(G) 的最小值为 −log 4。

C(G) = −log 4 + KL





+ P



+ KL





+ P



= −log 4 + 2JSD(P

||P

)

由 JSD 散度 (Jensen Shannon Dirergence)

可知，当且仅当 p

= p

时 JSD = 0，否则 JSD> 0。

于是 C(G) ⩾ 0，当且仅当 p

= p

时，等号成立。

回看上面的证明，我们会发现，在 D 给定后，求 G 就是求 min

C(G)。而 C(G) 去掉他的

极小值后，就是一个 P

, P

的 JSD 散度，所以，我们求 G 的本质是求

min

JSD(P

||P

) = KL





+ P



+ KL





+ P



自然会考虑能否为 G 设置其他的散度或距离 (D 的目标基本不变) ，这将在后面的 f-GAN 中进

行详细说明。下面，给出 GAN 的程序。

GAN 算法与程序

GAN 的伪代码如 (4) 所示

GAN 模型的 TensorFlow

·¸

程序如下，更详细的可以参考

For distributions P and Q of a continuous random variable, the Kullback–Leibler divergence is dened to be the integral

KL(P ||Q) =

∫

∞

−∞

p(x) log

p(x)

q(x)

wherepandqdenote the densities ofP andQ.

http://www.tensory.cn/

https://www.tensorow.org/

https://github.com/wiseodd/generative-models/tree/master/GAN

http://www.ma-xy.com 82 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

算法 4 Minibatch stochastic gradient descent training of GAN

1: 初始化：P

的真实样本 {x

}

i=1

(即原有的样本数据)，迭代步 t，t

ax，生成器 G 判别器 D，

设 G 和 D 的参数为 θ

, θ

，每迭代步 t 下，判别器训练次数 k(即在一次更新 G 下，要更新

k 次 D)，批量大小 m。

2: for t = 1, 2, . . . , t

max

3: // 更新 D

4: for k steps do

5: sample minibatch of m noise sample {z

(1)

, z

(2)

, . . . , z

(m)

} from P

；生成 m 个假样本

(1)

= G(z

(1)

), x

(2)

= G(z

(2)

), . . . , x

(m)

= G(z

(m)

)。

6: sample minibatch of m example {x

(1)

, x

(2)

, . . . , x

(m)

} from P

。即从原始数据 {x

}

i=1

中挑出 m 个。

7: 将 2m 个真假样本 x

(i)

输入到判别器 D，得到各样本属于真实分布的概率 D(x

(i)

)

max

V (D, G) = E

x∼P

[log D(x)] + E

z∼P

[log(1 − D(G(z)))]

8: 求 D 的梯度

∇



i=1

[log D

(i)

)] + ∇



i=1

[log(1 − D

(i)

)))]

= ∇



i=1

[log D

(i)

) + log(1 − D

(i)

)))]

9: 求 D

t+1

= D

+ ∇

；

10: end for

11: // 更新 G

12: sample minibatch of m noise sample {z

(1)

, z

(2)

, . . . , z

(m)

} from P

；

13: 计算梯度

∇



i=1

log(1 − D

t+1

(G(z

(i)

)))

14: 更新 G

t+1

= G

+ ∇

15: end for

http://www.ma-xy.com 83 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

1 import te n s orflo w as t f

2 from tenso r f l o w . examples . t u t o r i a l s . mnist import input_data

3 import numpy as np

4 import m atp l otl ib . pyplot as p l t

5 import m atp l otl ib . g r i d spec as g r i dspec

6 import os

7 de f x a v i e r_init ( s i z e ) :

8 in_dim = s i z e [ 0 ]

9 xavier_stddev = 1 . / t f . s q r t (in_dim / 2 . )

10 ret ur n t f . random_normal ( shape=s i z e , stddev=xavier_stddev )

11 X = t f . p laceh o l d e r ( t f . f l o a t 3 2 , shape=[None , 784])

12 D_W1 = t f . Variable ( x a v i e r _ i n i t ( [ 784 , 128]) )

13 D_b1 = t f . Variable ( t f . z e r o s ( shape =[128]) )

14 D_W2 = t f . Variable ( x a v i e r _ i n i t ( [ 128 , 1 ] ) )

15 D_b2 = t f . Variable ( t f . z e r o s ( shape = [1] ) )

16 theta_D = [D_W1, D_W2, D_b1, D_b2]

17 Z = t f . p l aceh o l d e r ( t f . f l o a t 3 2 , shape=[None , 100])

18 G_W1 = t f . Varia bl e ( x a v i e r _ i nit ( [ 1 00 , 12 8] ) )

19 G_b1 = t f . Variable ( t f . z e r o s ( shape =[ 12 8]) )

20 G_W2 = t f . Varia bl e ( x a v i e r _ i nit ( [ 1 28 , 78 4] ) )

21 G_b2 = t f . Variable ( t f . z e r o s ( shape =[ 78 4]) )

22 theta_G = [G_W1, G_W2, G_b1, G_b2]

23 de f sample_Z (m, n) :

24 ret ur n np . random . uniform ( −1. , 1 . , s i z e =[m, n ] )

25 de f ge ner ator ( z ) :

26 G_h1 = t f . nn . re l u ( t f . matmul( z , G_W1) + G_b1)

27 G_log_prob = t f . matmul(G_h1, G_W2) + G_b2

28 G_prob = t f . nn . sigmoid (G_log_prob)

29 ret ur n G_prob

30 de f d i s c r i m in a t or (x) :

31 D_h1 = t f . nn . r e lu ( t f . matmul(x , D_W1) + D_b1)

32 D_logit = t f . matmul(D_h1, D_W2) + D_b2

33 D_prob = t f . nn . sigmoid ( D_logit )

34 ret ur n D_prob, D_logit

35 de f p l o t ( samples ) :

36 f i g = pl t . f i g u r e ( f i g s i z e =(4, 4) )

37 gs = g r idspe c . GridSpec (4 , 4)

38 gs . update ( wspace =0.05 , hspace =0.05)

39 f o r i , sample in enumerate ( samples ) :

40 ax = p l t . subplot ( gs [ i ] )

41 p l t . a x i s ( ’ o f f ’ )

42 ax . s e t _x t i c kla b e l s ( [ ] )

43 ax . s e t _y t i c kla b e l s ( [ ] )

44 ax . set_aspect ( ’ equ al ’ )

45 p l t . imshow ( sample . reshape (28 , 28) , cmap=’ Greys_r ’ )

46 ret ur n f i g

47 G_sample = ge ner ato r (Z)

48 D_real , D_logit_real = d i s c r im i n a to r (X)

49 D_fake , D_logit_fake = d i s cr i m in a t o r (G_sample)

50 # D_loss = −t f . reduce_mean( t f . log ( D_real ) + t f . l o g ( 1 . − D_fake ) )

51 # G_loss = −t f . reduce_mean ( t f . l o g ( D_fake) )

52 # Al t ernat i v e l o s s e s :

53 # −−−−−−−−−−−−−−−−−−−

http://www.ma-xy.com 84 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

54 D_loss_real = t f . reduce_mean( t f . nn . sigmoid_cross_entropy_with_logits ( l o g i t s=

D_logit_real , l a b e l s=t f . on es_like ( D_logit_real ) ) )

55 D_loss_fake = t f . reduce_mean( t f . nn . sigmoid_cross_entropy_with_logits ( l o g i t s=

D_logit_fake , l a b e l s=t f . zeros_li k e ( D_logit_fake ) ) )

56 D_loss = D_loss_real + D_loss_fake

57 G_loss = t f . reduce_mean ( t f . nn . sigmoid_cross_entropy_with_logits ( l o g i t s=D_logit_fake ,

l a b e l s=t f . one s_ like ( D_logit_fake ) ) )

58 D_solver = t f . t r a i n . AdamOptimizer ( ) . minimize ( D_loss , v a r _ l i s t=theta_D )

59 G_solver = t f . t ra i n . AdamOptimizer ( ) . minimize ( G_loss , v a r _ li s t=theta_G)

60 mb_size = 128

61 Z_dim = 100

62 mnist = input_data . read_data_sets ( ’ . . / . . / MNIST_data ’ , one_hot=True )

63 s e s s = t f . Ses s i on ( )

64 s e s s . run ( t f . g l o b a l _ v a r i a b l e s _ i n i t i a l i z e r ( ) )

65 i f not os . path . e x i s t s ( ’ out/ ’ ) :

66 os . makedirs ( ’ out/ ’ )

67 i = 0

68 f o r i t in range (1000000) :

69 i f i t % 1000 == 0:

70 samples = s e s s . run (G_sample , feed_ di ct={Z : sample_Z(1 6 , Z_dim) })

72 f i g = p l o t ( samples )

73 p l t . s a v e f i g ( ’ out /{ }.png ’ . format ( s t r ( i ) . z f i l l (3 ) ) , bbox_inches=’ t ig h t ’ )

74 i += 1

75 p l t . c l o s e ( f i g )

76 X_mb, _ = mnist . tr a i n . next_batch ( mb_size )

77 _, D_loss_curr = se s s . run ( [ D_solver , D_loss ] , feed_d ic t={X: X_mb, Z : sample_Z(

mb_size , Z_dim) })

78 _, G_loss_curr = s e s s . run ( [ G_solver , G_loss ] , feed_dict={Z : sample_Z( mb_size ,

Z_dim) })

79 i f i t % 1000 == 0:

80 p r i n t ( ’ I t e r : {} ’ . format ( i t ) )

81 p r i n t ( ’D l o s s : { : . 4 } ’ . format ( D_loss_curr ) )

82 p r i n t ( ’ G_loss : { : . 4 } ’ . format ( G_loss_curr ) )

83 p r i n t ( )

1.6.3 f-GAN

文献25中介绍了一些“可行”的 divergence 和 distance(注意：距离和散度不是同一概念，距

离是对称的而散度不是)，并且 Sebastian 等也从变分角度给出了设置判别器 D 的原因。

f-散度族

KL 距离可能是最为常用的散度了，它用于衡量 2 个概率分布 P

, P

的不同程度。现在，我

们来介绍一大类散度：f-散度族。令 x 为随机变量，X 是其取值域 (domain)，f -散度定义为

||P

) =



(x)f



(x)



http://www.ma-xy.com 85 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

其中：f : R

→ R 是一个凸的单调函数，满足 f (1) = 0。f 不同，最终的距离/散度 D

||P

)

就不同。常见的 f 以及由其形成的 D

||P

) 如图 (1.68) 所示

图 1.68: f 散度族

其中：u 是 f 的自变量，dom

表示 f 的自变量域，即 u 的域。下面，我们来看 f 散度的

变分估计。

Veriational Estimation of f-divergence

在 GAN 中求解 G 时，使用上面介绍的 f 散度，目标变为求 G 使 D

||P

) 最小，有

min

||P

) =



(x)f



(x)



此时的 G 中还不具有参数，因此上述问题是一个关于 P

的变分问题。Nguyen 讨论了在只有

, P

(无 f ) 时，f-divergence 的一个一般化的变分估计方法。下面，我们将会用变分估计方法来

求解 G (将 P

参数化后求参数 θ

)。为了完整，我们给出 Nguyan 散度估计的一个 self-containde：

对于任意一个凸的单调函数 f ，有一个凸共轭 (conjugate) 函数 f

∗

，也被称为 fenchel 共轭。

定义为

∗

(t) = sup

u∈dom

{ut − f(u)}

并且，f

∗

也是凸的单调的。对于这对函数 (f, f

∗

)，有 f

∗∗

= f。因此，可以将 f 表示为

f(u) = sup

t∈dom

∗

{tu − f

∗

(t)}

http://www.ma-xy.com 86 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

将 f(u) 带入到 D

||P

) 中，有 (这里的 u 是

(x)

)

||P

) =



(x)f



(x)





(x) sup

t∈dom

∗



(x)

− f

∗

(t)



⩾ sup

t∈dom

∗



(x)t

(x)

− p

(x)f

∗

(t)dx Jensen 不等式

⩾ sup

T ∈Γ





(x)T (x)dx −



(x)f

∗

(T (x))dx



= sup

T ∈Γ



x∼P

[T (x)] − E

x∼P

∗

(T (x))]



其中：T (x) : X → R 是 X 上的函数，Γ 是 T 的任意一个函数集，且是无穷维函数空间 (T 的所

有可能) 的一个小部分 (subset)，因此有第二个不等号。

可以发现，这里的 T 就相当于 GAN 中的分类器 D。计算上式得变分下界，我们发现，在可

能的函数集 Γ 中，the bound is tight for

∗

(x) = f

′



(x)



其中：f

′

是 f 的一阶导。这个情况可以用于指导我们如何选择 f 以及设计函数集 Γ。例如：KL

散度相当于 f(u) = −log(u)，其下界为 T

∗

(x) = −

(x)

，图 (1.68) 中给出了一些 f 散度，图

(1.69) 给出了共轭 f

∗

以及 f

∗

的域 dom

∗

。

图 1.69: f 散度的共轭

上述问题仍然是一个泛函 (变分) 问题

min

sup

V (P

, T ) = E

x∼P

[T (x)] − E

x∼P

∗

(T (x))]

下面来处理这个泛函问题。像一般的泛函问题那样，将函数问题参数化，将求函数问题变为求参

数问题。将两个函数 P

≜ G 和 T ≜ D 参数化，设其参数为 θ

, θ

，于是有

min

max

F (θ

, θ

) = E

x∼P

(x)] − E

x∼P

∗

(x))]

http://www.ma-xy.com 87 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

为了书写方便，令 (θ

, θ

) ≜ (θ, w)，T

(x) = g

(x))，于是上述目标变为

min

max

F (θ, w) = E

x∼P

(x))] + E

x∼P

[−f

∗

(x))]

其中：V

: X → R 的输出 R 不存在任何限制，g

: R → dom

∗

是一个输出激活函数。

f-GAN 的程序

f-GAN 的 TensorFlow 程序如下

1 import te n s orflo w as t f

2 from tenso r f l o w . examples . t u t o r i a l s . mnist import input_data

3 import numpy as np

4 import m atp l otl ib . pyplot as p l t

5 import m atp l otl ib . g r i d spec as g r i dspec

6 import os

7 mb_size = 32

8 X_dim = 784

9 z_dim = 64

10 h_dim = 128

11 l r = 1e−3

12 d_steps = 3

13 mnist = input_data . read_data_sets ( ’ . . / . . / MNIST_data ’ , one_hot=True )

14 de f p l o t ( samples ) :

15 f i g = pl t . f i g u r e ( f i g s i z e =(4, 4) )

16 gs = g r idspe c . GridSpec (4 , 4)

17 gs . update ( wspace =0.05 , hspace =0.05)

18 f o r i , sample in enumerate ( samples ) :

19 ax = p l t . subplot ( gs [ i ] )

20 p l t . a x i s ( ’ o f f ’ )

21 ax . s e t _x t i c kla b e l s ( [ ] )

22 ax . s e t _y t i c kla b e l s ( [ ] )

23 ax . set_aspect ( ’ equ al ’ )

24 p l t . imshow ( sample . reshape (28 , 28) , cmap=’ Greys_r ’ )

25 ret ur n f i g

26 de f x a v i e r_init ( s i z e ) :

27 in_dim = s i z e [ 0 ]

28 xavier_stddev = 1 . / t f . s q r t (in_dim / 2 . )

29 ret ur n t f . random_normal ( shape=s i z e , stddev=xavier_stddev )

30 X = t f . p laceh o l d e r ( t f . f l o a t 3 2 , shape=[None , X_dim] )

31 z = t f . p l aceho l d e r ( t f . f l o a t 3 2 , shape=[None , z_dim ] )

32 D_W1 = t f . Variabl e ( x a v i e r _ i n it ( [ X_dim, h_dim ] ) )

33 D_b1 = t f . Variable ( t f . z e r o s ( shape=[h_dim] ) )

34 D_W2 = t f . Variabl e ( x a v i e r _ i n it ( [ h_dim, 1 ] ) )

35 D_b2 = t f . Variable ( t f . z e r o s ( shape = [1] ) )

36 G_W1 = t f . Varia bl e ( x a v i e r _ i nit ( [ z_dim , h_dim ] ) )

37 G_b1 = t f . Variable ( t f . z e r o s ( shape=[h_dim ] ) )

38 G_W2 = t f . Varia bl e ( x a v i e r _ i nit ( [ h_dim, X_dim] ) )

39 G_b2 = t f . Variable ( t f . z e r o s ( shape=[X_dim] ) )

40 theta_G = [G_W1, G_W2, G_b1, G_b2]

41 theta_D = [D_W1, D_W2, D_b1, D_b2]

42 de f sample_z (m, n) :

43 ret ur n np . random . uniform ( −1. , 1 . , s i z e =[m, n ] )

http://www.ma-xy.com 88 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

44 de f ge ner ator ( z ) :

45 G_h1 = t f . nn . re l u ( t f . matmul( z , G_W1) + G_b1)

46 G_log_prob = t f . matmul(G_h1, G_W2) + G_b2

47 G_prob = t f . nn . sigmoid (G_log_prob)

48 ret ur n G_prob

49 de f d i s c r i m in a t or (x) :

50 D_h1 = t f . nn . r e lu ( t f . matmul(x , D_W1) + D_b1)

51 out = t f . matmul(D_h1, D_W2) + D_b2

52 ret ur n out

53 G_sample = ge ner ato r ( z )

54 D_real = di s c r i m in a t or (X)

55 D_fake = d i s c ri m i n at o r (G_sample)

56 # Uncomment D_loss and i t s r e s p e c ti v e G_loss o f your c hoic e

57 # −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

58 ””” Total V ar ia tion ”””

59 # D_loss = −(t f . reduce_mean ( 0 .5 * t f . nn . tanh ( D_real ) ) −

60 # t f . reduce_mean ( 0. 5 * t f . nn . tanh (D_fake ) ) )

61 # G_loss = −t f . reduce_mean ( 0 . 5 * t f . nn . tanh ( D_fake) )

62 ””” Forward KL ”””

63 # D_loss = −(t f . reduce_mean (D_real ) − t f . reduce_mean ( t f . exp ( D_fake − 1) ) )

64 # G_loss = −t f . reduce_mean ( t f . exp ( D_fake − 1) )

65 ””” Reverse KL ”””

66 # D_loss = −(t f . reduce_mean(−t f . exp ( D_real ) ) − t f . reduce_mean(−1 − D_fake) )

67 # G_loss = −t f . reduce_mean(−1 − D_fake )

68 ””” Pearson Chi−squared ”””

69 D_loss = −( t f . reduce_mean ( D_real ) − t f . reduce_mean (0 . 25* D_fake**2 + D_fake) )

70 G_loss = −t f . reduce_mean ( 0 .25 * D_fake**2 + D_fake)

71 ””” Squared He l l i n ge r ”””

72 # D_loss = −(t f . reduce_mean (1 − t f . exp ( D_real ) ) −

73 # t f . reduce_mean ( (1 − t f . exp (D_fake ) ) / ( t f . exp ( D_fake) ) ) )

74 # G_loss = −t f . reduce_mean (( 1 − t f . exp ( D_fake) ) / ( t f . exp (D_fake ) ) )

76 D_solver = ( t f . t r ai n . AdamOptimizer ( l ea rni ng_ rat e=l r )

77 . minimize ( D_loss , v a r _ l i s t=theta_D ) )

78 G_solver = ( t f . t r a i n . AdamOptimizer( lear nin g_r ate=l r )

79 . minimize ( G_loss , v a r _l i st=theta_G ) )

80 s e s s = t f . Ses s i on ( )

81 s e s s . run ( t f . g l o b a l _ v a r i a b l e s _ i n i t i a l i z e r ( ) )

82 i f not os . path . e x i s t s ( ’ out/ ’ ) :

83 os . makedirs ( ’ out/ ’ )

84 i = 0

85 f o r i t in range (1000000) :

86 X_mb, _ = mnist . tr a i n . next_batch ( mb_size )

87 z_mb = sample_z ( mb_size , z_dim)

88 _, D_loss_curr = se s s . run ( [ D_solver , D_loss ] , feed_d ic t={X: X_mb, z : z_mb})

89 _, G_loss_curr = s e s s . run ( [ G_solver , G_loss ] , feed_dict={z : z_mb})

90 i f i t % 1000 == 0:

91 p r i n t ( ’ I t e r : {}; D_loss : { : . 4 } ; G_loss : { : . 4 } ’

92 . format ( i t , D_loss_curr , G_loss_curr ) )

93 samples = s e s s . run (G_sample , feed_ di ct={z : sample_z (1 6 , z_dim) })

94 f i g = p l o t ( samples )

95 p l t . s a v e f i g ( ’ out /{ }.png ’

96 . format ( s t r ( i ) . z f i l l ( 3) ) , bbox_inches=’ t i g ht ’ )

http://www.ma-xy.com 89 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

97 i += 1

98 p l t . c l o s e ( f i g )

1.6.4 Conditional GAN

回顾前面的 GAN，在生成假样本 x ∼ P

时，用 x = G(z), z ∼ U[0, 1]，即生成器 G 的网络

输入仅是随机值 z。现在，考虑能否将其它信息作为 G 的输入来生成假样本 x，即生成网络的输

入 z 变为其它形式 (还可以考虑 G 在生成 x 的同时还生成其它信息，这个后面讨论)。可以尝试

用 z ∼ N 来替代原本的 z ∼ U ，这是行的通的，并且也可以解释的通 (下面解释)。但是，即便

是 z ∼ f，GAN 仍然是一个无指导性的生成：训练后的 GAN 只能生成 room 图片，而不能根据

要求生成相应的图片 (比如要求 GAN 生成狗的图片，再生成猫的图片)。

现在，考虑这样一种生成问题：用同一个 GAN，生成数字 1、数字 2···，即我们来指导 GAN

生成哪些事物，称这些指导为指导信息。我们将指导信息作为输入来生成假样本 x。

在介绍 CGAN 之前，先来考虑一般的图像回归/分类问题 X → Y ，构建回归器

y = wϕ(x) + z

z ∼ N (0, σ

)

更一般的，记为 y = φ(x) + z。既然可以从 X → Y ，我们同样可以用神经网络来构建 Y → X 的

映射，有

x = G(y) + z

这里的 y 即为图像的标签信息。在图像分类任务中，我们将图片 x 作为输入，标签值 y 作为输

出，构建 X → Y 的映射，现在反过来，以 y 为输入，x 为输出，构建 Y → X 的映射以生成图

像 (一个很普通的问题是：当 y 和 z 的维度很低时，要生成高维 x 是不易的)。

要从 x = G(y) + z 中采样 (y = φ(x) + z 中采样是一样的)，我们都只需要取一个 y 形成

G(y)，再生成多个随机值 z，将 G(y) 和多个随机值 z 相加，求平均即可，即 x



G(y

) + z

。

(x) =



p(x, z)dz



p(x|z)p(z)dz



p(x|z)p(z)

更一般的24，在输入层中加入噪声 z，如图 (1.70) 所示

http://www.ma-xy.com 90 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

图 1.70: CGAN 生成网络示意图

x = G(z, y)。注意，这里和前面 DAE 中添加噪声的方法有所不同，DAE 是在 x 中添加噪

声，形成 ˜x = x + z，而这里是将 z 作为输入的一部分。

在判别器 D 中，将 y 作为输入，x 作为输入来进行判别，D(x|y) 表示 y 给定后，输入样

本 x 为真的概率。这里有一个问题：判别器 D 的输入和输出是什么？¬输入为标签值 y，输出为

p(x|y)，表示输入 y 输出为 x 的条件概率。输入是 (y, x)，输出是 D(x|y)，表示输入 y, x 为真

的概率。如果是第一种方法，则 G 和 D 作的任务是一样的。采用第二种方法，CGAN 的网络结

构图如图 (1.71) 所示

图 1.71: CGAN 网络结构图

可以构建如下条件 GAN(CGAN) 的目标

min

max

V (D, G) = E

x∼P

[log D(x|y)] + E

z∼P

[log(1 − D(x|y))]

= E

x∼P

[log D(x|y)] + E

z∼P

[log(1 − D(G(z, y)|y))]

值得一提的是，CGAN 中的 z 可以是任意的噪声，不局限于均匀噪声 z ∼ U [0, 1]。CGAN 的

TensorFolw 程序如下

1 import te n s orflo w as t f

2 from tenso r f l o w . examples . t u t o r i a l s . mnist import input_data

3 import numpy as np

4 import m atp l otl ib . pyplot as p l t

5 import m atp l otl ib . g r i d spec as g r i dspec

6 import os

7 mnist = input_data . read_data_sets ( ’ . . / . . / MNIST_data ’ , one_hot=True )

8 mb_size = 64

9 Z_dim = 100

10 X_dim = mnist . tr a i n . images . shape [ 1 ]

11 y_dim = mnist . t r a in . l a b e l s . shape [ 1 ]

12 h_dim = 128

http://www.ma-xy.com 91 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

13 de f x a v i e r_init ( s i z e ) :

14 in_dim = s i z e [ 0 ]

15 xavier_stddev = 1 . / t f . s q r t (in_dim / 2 . )

16 return t f . random_normal( shape=si z e , stddev=xavier_stddev )

17 ””” Disc rim in ato r Net model ”””

18 X = t f . p laceh o l d e r ( t f . f l o a t 3 2 , shape=[None , 784])

19 y = t f . p l a c ehold e r ( t f . float 3 2 , shape=[None , y_dim ] )

20 D_W1 = t f . Va riable ( x a v i e r _ i n i t ( [ X_dim + y_dim, h_dim ] ) )

21 D_b1 = t f . Variable ( t f . z e r o s ( shape=[h_dim] ) )

22 D_W2 = t f . Va riable ( x a v i e r _ i n i t ( [ h_dim , 1 ] ) )

23 D_b2 = t f . Variable ( t f . z e r o s ( shape = [1] ) )

24 theta_D = [D_W1, D_W2, D_b1, D_b2]

25 de f d i s c r i m in a t or (x , y ) :

26 i nputs = t f . concat ( a xi s =1, va lue s =[x , y ] )

27 D_h1 = t f . nn . re l u ( t f . matmul( inputs , D_W1) + D_b1)

28 D_logit = t f . matmul(D_h1, D_W2) + D_b2

29 D_prob = t f . nn . sigmoid ( D_logit )

30 return D_prob , D_logit

31 ””” Generator Net model ”””

32 Z = t f . plac e h o l der ( t f . f l o a t 3 2 , shape=[None , Z_dim ] )

33 G_W1 = t f . Variable ( xavi e r _ i n i t ( [ Z_dim + y_dim , h_dim ] ) )

34 G_b1 = t f . Variable ( t f . z e r o s ( shape=[h_dim ] ) )

35 G_W2 = t f . Variable ( xavi e r _ i n i t ( [ h_dim, X_dim] ) )

36 G_b2 = t f . Variable ( t f . z e r o s ( shape=[X_dim] ) )

37 theta_G = [G_W1, G_W2, G_b1, G_b2]

38 de f ge ner ator ( z , y) :

39 i nputs = t f . concat ( a xi s =1, va lue s =[z , y ] )

40 G_h1 = t f . nn . r e l u ( t f . matmul( inputs , G_W1) + G_b1)

41 G_log_prob = t f . matmul(G_h1, G_W2) + G_b2

42 G_prob = t f . nn . sigmoid (G_log_prob)

43 return G_prob

44 de f sample_Z (m, n) :

45 return np . random . uniform ( −1. , 1 . , s i z e =[m, n ] )

46 de f p l o t ( samples ) :

47 f i g = pl t . f i g u r e ( f i g s i z e =(4 , 4) )

48 gs = g r i d s p ec . GridSpec ( 4 , 4)

49 gs . update ( wspace =0.05 , hspace =0.05)

50 f o r i , sample in enumerate ( samples ) :

51 ax = p l t . subp lot ( gs [ i ] )

52 p l t . axis ( ’ o f f ’ )

53 ax . s et _ x t ick l a b el s ( [ ] )

54 ax . s et _ y t ick l a b el s ( [ ] )

55 ax . set_aspect ( ’ equal ’ )

56 p l t . imshow( sample . reshape (2 8 , 28) , cmap=’ Greys_r ’ )

57 return f i g

58 G_sample = gen era to r (Z , y)

59 D_real , D_logit_real = d i s c r i m i n a to r (X, y )

60 D_fake , D_logit_fake = d i s c r i m i n at o r (G_sample , y)

61 D_loss_real = t f . reduce_mean( t f . nn . sigmoid_cross_entropy_with_logits ( l o g i t s=D_logit_real ,

l a b e l s=t f . one s_ like ( D_logit_real ) ) )

62 D_loss_fake = t f . reduce_mean ( t f . nn . sigmoid_cross_entropy_with_logits ( l o g i t s=D_logit_fake ,

l a b e l s=t f . z e r o s _ l i k e ( D_logit_fake ) ) )

63 D_loss = D_loss_real + D_loss_fake

http://www.ma-xy.com 92 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

64 G_loss = t f . reduce_mean ( t f . nn . sigmoid_cross_entropy_with_logits ( l o g i t s=D_logit_fake ,

l a b e l s=t f . one s_ like ( D_logit_fake ) ) )

65 D_solver = t f . t r a i n . AdamOptimizer ( ) . minimize ( D_loss , va r _ l i s t=theta_D )

66 G_solver = t f . tr a i n . AdamOptimizer ( ) . minimize ( G_loss , v a r_ l is t=theta_G )

67 s e s s = t f . Ses s i on ( )

68 s e s s . run ( t f . g l o b a l _ v a r i a b l e s _ i n i t i a l i z e r ( ) )

69 i f not os . path . e x i s t s ( ’ out/ ’ ) :

70 os . makedirs ( ’ out / ’ )

71 i = 0

72 f o r i t in range (1000000) :

73 i f i t % 1000 == 0:

74 n_sample = 16

75 Z_sample = sample_Z ( n_sample , Z_dim)

76 y_sample = np . z e r o s ( shape=[n_sample , y_dim ] )

77 y_sample [ : , 7 ] = 1

78 samples = se s s . run (G_sample , feed_dict={Z : Z_sample , y : y_sample })

79 f i g = p l o t ( samples )

80 p l t . s a v e f i g ( ’ out /{ }. png ’ . format ( s t r ( i ) . z f i l l (3 ) ) , bbox_inches=’ t ig h t ’ )

81 i += 1

82 p l t . c l o s e ( f i g )

83 X_mb, y_mb = mnist . t r a in . next_batch ( mb_size )

84 Z_sample = sample_Z( mb_size , Z_dim)

85 _, D_loss_curr = s e s s . run ( [ D_solver , D_loss ] , fee d_ dict={X: X_mb, Z : Z_sample , y :y_mb

})

86 _, G_loss_curr = s e s s . run ( [ G_solver , G_loss ] , fee d_ dict={Z : Z_sample , y :y_mb})

87 i f i t % 1000 == 0:

88 print ( ’ I t e r : {} ’ . format ( i t ) )

89 print ( ’D lo s s : { : . 4 } ’ . format ( D_loss_curr ) )

90 print ( ’ G_loss : { : . 4 } ’ . format ( G_loss_curr ) )

91 p r i n t ( )

实验：在 MINIST 数据集上，以类别标签为条件 y(one - hot 编码)，给定 z 后，生成 0-9 数

字图像，然后将 (y, x|y) ∼ P

，(y, x|y) ∼ P

作为训练集输入到 D 中进行判断。最终生成的 0-9

数字图像如图 (1.72) 所示

图 1.72: CGAN 数字生成图

http://www.ma-xy.com 93 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

1.6.5 InfoGAN

InfoGAN 模型建立

前面 GAN 生成器为 x = G(z)，CGAN 的生成器为 x = G(z, y)，这里的 y 为指导信息。现

在，考虑在生成器 G 的输入层加入一些 x 自身的信息，比如 x 的主成分。构建如下生成器

x = G(z, x

′

)

其中：x

′

为图像 x 的部分特征信息，例如，要生成 n × n 大小的图像，可以用 m × m(m < n)

的部分图像作为 x

′

。进一步考虑条件 GAN，有

x = G(z, x

′

, y)

其中：x

′

为 x 的部分特征，y 为指导信息，z 为噪声。其实，可以将 y 视为 x 的部分特征 x

′

的

一部分。

现在，来看 InfoGAN6的思路：InfoGAN 将输入改为 z 和 c。z 仍为噪声，c 设定为潜变量

(c 可以对应于笔画粗细、图像光照、字体倾斜度等，我们称之为 latent code)。设共有 L 个潜变

量 c

, c

, . . . , c

(用 c 表示)，于是生成器 G 为

x = G(z, c)

并且假设 c

, c

, . . . , c

之间相互独立，即 P (c

, c

, . . . , c

) =



i=1

P (c

)。生成器 G 构建完成之

后，要考虑判别器 D，D 的设置仍然和前面一样。下面就要考虑如何构建目标，以及 c ∼ P

是

什么，如果 c 是 x

′

或者 c 是 x 的主成分那还好说，但如果 c 是潜在的变量，那么 P

如何，以

及如何采样 c ∼ P

？

如果将 x

′

作为部分的输入，我们自然希望 G(z, x

′

) 和 x

′

尽可能靠近，如果把 c 视为 x

′

，这

里我们希望 c 和 x = G(c, z) 尽可能靠近。用互信息 I(c; x) 来衡量二者的相关性，当 c, x 相互独

立时，I(c; x) = 0。

I(c; x) = I(c; G(z, c)) = H(c) − H(x|c) = H(x) − H(c|x)

其中：H 为熵

H(x) = −



p(x) log p(x)dx

= −



i=1

log p

= E[−log p

]

http://www.ma-xy.com 94 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

并且，对于互信息 I(c; x)，我们有

I(c; x) = H(c) − H(c|x)

= H(c) + H(x) − H(c, x)



p(c) log

p(c)



p(x) log

p(x)

−



x,c

p(c, x) log

p(c, x)



c,x

p(c, x) log

p(c, x)

p(c)p(x)

在设置生成器 G 时，应该使 c 和 x = G(c, z) 的互信息 I 尽可能大，于是有 InfoGAN 的目

标

min

max

(

D, G

) =

(

D, G

)

−

(

;

(

z, c

))

其中：V (D, G) 是 GAN 的原始目标。我们来看 I(c; x)

I(c; x) =H(c) − H(c|x)

=H(c) −



p(c|x) log

p(c|x)

这样，在计算 I(c; x) 时，就需要计算后验 p(c|x)，这是相当麻烦的。幸运的是，我们可以用 p(c|x)

的一个近似 q(c|x) 来得到 I(c; x) 的一个下界

I(c; x) = H(c) − H(c|x)

= E

x∼G(z,c)



′

∼p(c|x)

[log p(c

′

; x)]



+ H(c)

= E

x∼G(z,c)



KL(P (·|x)||Q(·|x)) + E

′

∼p(c|x)

[log q(c

′

|x)]



+ H(c)

⩾ E

x∼G(z,c)



′

∼p(c|x)

[log q(c

′

|x)]



+ H(c)

上述求互信息 I 的下界的方法称为最大变分互信息 (variational Information Maximization)。

H(c) 是易于计算的，在下面的分析中，我们将其视为一个常数 (熵不变)。

So far we habe by passed the problem of having to computer the posterior p(c|x). explicithy

wia this hower bound but we still need to be able to sample from the posterior in the inner

expection.

引理 (lemma 5.1) 设 X , Y 为随机变量，f(x, y) 为二元函数，则有

x∼X,y∼Y |x

[f(x, y)] = E

x∼X,y∼Y |x,x

′

∼X|y

[f(x

′

, y)]

http://www.ma-xy.com 95 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

证明

x∼X,y∼Y |x

[f(x, y)] =



p(x)



p(y|x)f(x, y)dydx



x,y

p(x, y)f(x, y)dydx



x,y

p(x, y)f(x, y)



′

p(x

′

|y)dx

′

dydx



p(x)



p(y|x)



′

p(x

′

|y)f(x

′

, y)dx

′

dydx

= E

x∼X,y∼Y |x,x

′

∼X|y

[f(x

′

, y)]

应用上面的引理，我们可以得到互信息 I(c; x) 的一个下界

I(c; x) = E

x∼G(z,c)



′

∼p(c|x)

[log q(c

′

|x)]



+ H(c)

= E

c∼p(c),x∼G(z,c)

[log q(c|x)] + H(c)

≜ L

(G, q)

(G, q) 是可以用 MC 方法来近似 (模拟) 的。现在，我们将目标 L

(G, q) 添加到 GAN 的

目标中，求 G 使 L

(G, q) 尽可能大，有

min

G,q

max

infoGAN

(G, G, q) = V (D, G) − λL

(G, q)

InfoGAN 程序

InfoGAN 的 TensorFlow 程序如下

1 import te n s orflo w as t f

2 from tenso r f l o w . examples . t u t o r i a l s . mnist import input_data

3 import numpy as np

4 import m atp l otl ib . pyplot as p l t

5 import m atp l otl ib . g r i d spec as g r i dspec

6 import os

7 de f x a v i e r_init ( s i z e ) :

8 in_dim = s i z e [ 0 ]

9 xavier_stddev = 1 . / t f . s q r t (in_dim / 2 . )

10 ret ur n t f . random_normal ( shape=s i z e , stddev=xavier_stddev )

11 X = t f . p laceh o l d e r ( t f . f l o a t 3 2 , shape=[None , 784])

12 D_W1 = t f . Variabl e ( x a v i e r _ i n it ( [ 7 84 , 128]) )

13 D_b1 = t f . Variable ( t f . z e r o s ( shape =[128]) )

14 D_W2 = t f . Variabl e ( x a v i e r _ i n it ( [ 1 28 , 1 ] ) )

15 D_b2 = t f . Variable ( t f . z e r o s ( shape = [1] ) )

16 theta_D = [D_W1, D_W2, D_b1, D_b2]

17 Z = t f . p l aceh o l d e r ( t f . f l o a t 3 2 , shape=[None , 1 6 ] )

18 c = t f . p l aceho l d e r ( t f . f l o a t 3 2 , shape=[None , 1 0 ] )

19 G_W1 = t f . Varia bl e ( x a v i e r _ i nit ( [ 2 6 , 2 5 6 ] ) )

20 G_b1 = t f . Variable ( t f . z e r o s ( shape =[ 25 6]) )

21 G_W2 = t f . Varia bl e ( x a v i e r _ i nit ( [ 2 56 , 78 4] ) )

http://www.ma-xy.com 96 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

22 G_b2 = t f . Variable ( t f . z e r o s ( shape =[ 78 4]) )

23 theta_G = [G_W1, G_W2, G_b1, G_b2]

24 Q_W1 = t f . V ariable ( xavier _ i n i t ( [7 8 4 , 12 8 ] ) )

25 Q_b1 = t f . Variable ( t f . z e r o s ( shape = [128]) )

26 Q_W2 = t f . V ariable ( xavier _ i n i t ( [1 2 8 , 10 ] ) )

27 Q_b2 = t f . Variable ( t f . z e r o s ( shape =[10 ]) )

28 theta_Q = [Q_W1, Q_W2, Q_b1, Q_b2]

29 de f sample_Z (m, n) :

30 ret ur n np . random . uniform ( −1. , 1 . , s i z e =[m, n ] )

31 de f sample_c (m) :

32 ret ur n np . random . multinomial (1 , 1 0 * [ 0 . 1 ] , s i z e=m)

33 de f ge ner ator ( z , c ) :

34 input s = t f . concat ( ax is =1, va lue s =[z , c ] )

35 G_h1 = t f . nn . re l u ( t f . matmul( inputs , G_W1) + G_b1)

36 G_log_prob = t f . matmul(G_h1, G_W2) + G_b2

37 G_prob = t f . nn . sigmoid (G_log_prob)

38 ret ur n G_prob

39 de f d i s c r i m in a t or (x) :

40 D_h1 = t f . nn . r e lu ( t f . matmul(x , D_W1) + D_b1)

41 D_logit = t f . matmul(D_h1, D_W2) + D_b2

42 D_prob = t f . nn . sigmoid ( D_logit )

43 ret ur n D_prob

44 de f Q(x) :

45 Q_h1 = t f . nn . r e l u ( t f . matmul( x , Q_W1) + Q_b1)

46 Q_prob = t f . nn . softmax ( t f . matmul(Q_h1, Q_W2) + Q_b2)

47 ret ur n Q_prob

48 de f p l o t ( samples ) :

49 f i g = pl t . f i g u r e ( f i g s i z e =(4, 4) )

50 gs = g r idspe c . GridSpec (4 , 4)

51 gs . update ( wspace =0.05 , hspace =0.05)

52 f o r i , sample in enumerate ( samples ) :

53 ax = p l t . subplot ( gs [ i ] )

54 p l t . a x i s ( ’ o f f ’ )

55 ax . s e t _x t i c kla b e l s ( [ ] )

56 ax . s e t _y t i c kla b e l s ( [ ] )

57 ax . set_aspect ( ’ equ al ’ )

58 p l t . imshow ( sample . reshape (28 , 28) , cmap=’ Greys_r ’ )

59 ret ur n f i g

60 G_sample = ge ner ato r (Z , c )

61 D_real = di s c r i m in a t or (X)

62 D_fake = d i s c ri m i n at o r (G_sample)

63 Q_c_given_x = Q(G_sample)

64 D_loss = −t f . reduce_mean ( t f . l o g ( D_real + 1e−8) + t f . log (1 − D_fake + 1e−8))

65 G_loss = −t f . reduce_mean( t f . log (D_fake + 1e−8))

66 cross_ent = t f . reduce_mean(−t f . reduce_sum ( t f . l o g (Q_c_given_x + 1e−8) * c , 1) )

67 ent = t f . reduce_mean(−t f . reduce_sum ( t f . l o g ( c + 1e−8) * c , 1) )

68 Q_loss = cross_ent + ent

69 D_solver = t f . t r a i n . AdamOptimizer ( ) . minimize ( D_loss , v a r _ l i s t=theta_D )

70 G_solver = t f . t ra i n . AdamOptimizer ( ) . minimize ( G_loss , v a r _ li s t=theta_G)

71 Q_solver = t f . t ra i n . AdamOptimizer ( ) . minimize ( Q_loss , v ar _ li s t=theta_G + theta_Q )

72 mb_size = 32

73 Z_dim = 16

74 mnist = input_data . read_data_sets ( ’ . . / . . / MNIST_data ’ , one_hot=True )

http://www.ma-xy.com 97 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

75 s e s s = t f . Ses s i on ( )

76 s e s s . run ( t f . g l o b a l _ v a r i a b l e s _ i n i t i a l i z e r ( ) )

77 i f not os . path . e x i s t s ( ’ out/ ’ ) :

78 os . makedirs ( ’ out/ ’ )

79 i = 0

80 f o r i t in range (1000000) :

81 i f i t % 1000 == 0:

82 Z_noise = sample_Z (16 , Z_dim)

83 idx = np . random . rand in t ( 0 , 10)

84 c_noise = np . zer o s ( [ 1 6 , 1 0 ] )

85 c_noise [ range (16) , idx ] = 1

86 samples = s e s s . run (G_sample , feed_ di ct={Z : Z_noise , c : c_noise })

87 f i g = p l o t ( samples )

88 p l t . s a v e f i g ( ’ out /{ }.png ’ . format ( s t r ( i ) . z f i l l (3 ) ) , bbox_inches=’ t ig h t ’ )

89 i += 1

90 p l t . c l o s e ( f i g )

91 X_mb, _ = mnist . tr a i n . next_batch ( mb_size )

92 Z_noise = sample_Z(mb_size , Z_dim)

93 c_noise = sample_c ( mb_size )

94 _, D_loss_curr = se s s . run ( [ D_solver , D_loss ] ,

95 fee d_ di ct={X: X_mb, Z : Z_noise , c : c_noise })

96 _, G_loss_curr = s e s s . run ( [ G_solver , G_loss ] ,

97 fee d_ di ct={Z : Z_noise , c : c_noise })

98 s e s s . run ( [ Q_solver ] , feed _d ict={Z: Z_noise , c : c_noise })

99 i f i t % 1000 == 0:

100 p r i n t ( ’ I t e r : {} ’ . format ( i t ) )

101 p r i n t ( ’D l o s s : { : . 4 } ’ . format ( D_loss_curr ) )

102 p r i n t ( ’ G_loss : { : . 4 } ’ . format ( G_loss_curr ) )

103 p r i n t ( )

104

在实验中，作者通过只改变 latent code c 中的某一个维度，来观察生成数据的变化。其实验

确实证明：latent code 确实学到了一些维度，如图像的角度或光照等因素，也即说明 InfoGAN

确实学习到了数据中的 disentangled 的可解释部分的表示。其效果如下三张图 (1.73) 所示

http://www.ma-xy.com 98 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

图 1.73: infoGAN 实验结果

1.6.6 Mali GAN

Mali GAN 模型建立

尽管生成对抗网络 (GAN) 在获取连续分布上已经取得了成功，但其在离散背景 (比如自然

语言任务) 上的应用却相当有限。主要的原因是通过离散变量的反向传播很困难，而且 GAN 训

练目标还具有固有的不稳定性。为了解决这些问题，文献34提出了最大似然增强的离散生成对抗

网络 (Maximum-Likelihood Augmented Discrete Generative Adversarial Networks)。Mali GAN

没有直接优化该 GAN 目标，而是使用遵循对数似然的推导提出了一种全新的且低方差的目标。

在多种离散数据集上的实验结果表明了这方法的有效性。

在 GAN 的分析中，我们知道在 G 给定的情况下，最优判别器 D 为

∗

+ p

给定 D

∗

，真实分布密度 p

可以写为

(x) =

∗

1 − D

∗

(x)

即真实样本的概率可以用 p

的带权

∗

1−D

∗

来替代。然而，这样的判别器 D 不太可能通过训练得

到，甚至不存在。为此，我们将最优 D

∗

改为非最优判别器 D(x)，据此，我们可以写出，在 D

给定下 p

的估计

˜p

1 − D

上式说明，在 D 和 G 给定下，样本 x 在真实分布 p

中的估计值。¬回想极大似然估计，我们

的目标是让样本出现的概率最大。现在可以求 G，让 G 生成的假样本在真实分布 p

中的概率值

http://www.ma-xy.com 99 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

最大，即

max

˜p

(x)

在 GAN 中，生成器 G 的目标是使两个分布 p

, p

的 JSD 散度最小。这里，将 JSD 散度

换为 KL 距离，有

min

KL(p

||p

)

用 ˜p

来替代 p

，有

min

KL(˜p

||p

)

但可惜的是 ˜p

并不是一个合理的概率分布，因为它的和并不为 1。为此，使用归一化技术，

令 r

(x) =

D(x)

1−D(x)

，定义归一化的 p

的估计为

q(x) =

Z(θ

′

)

D(x)

1 − D(x)

(x) =

(x)

Z(θ

′

)

(x)

其中：Z(θ

′

) 为归一化因子，Z(θ

′

) = E

(x)] =



(x)

D(x)

1−D(x)

。此时的 q(x) 是一个标准的

概率分布，其和为 1。当最优判别器是 D = D

∗

时，Z = 1 ，q(x) = p

(x) = p

(x)，并且 q(x)

估计量的偏差仅依赖于 D(x)，D

∗

(x) = D(x) 是最小偏差。

我们的目标是求 G 使 p

和 q 的 KL 距离最小 (用 q 来代替 p

)

(θ

) = KL(q(x)||p

(x))

上述目标有一个吸引人的性质：q 是固定的。如果 D 被充分训练，则 q 总是接近数据分布 p

。定

义目标的导数为 ∇L

= E

[∇

log p

(x)]，有

∇L



q(x)

(x)

∇

log p

(x)





(x)∇

log p

(x)



Mali GAN 通过如下的梯度估计量来求解 G

∇L

(θ

) ≈



i=1



)



)

−



∇

log

) = E({x

}) (1.5)

其中：b 是一个 baseline，用来增强学习以减小方差。在试验中，让 b 从 0 到 1 慢慢变大。下面，

给出这种梯度近似的合理性。下述定理表明，当 D 接近最优时，上面的近似目标 (1.5) 接近原始

目标 KL(q(x)||p

(x))。此外，即使 D 没有接近最优，这个近似目标 (1.5) 仍然是很好的。

定理 1. 如果 D(x) 是最优的，有如下等式

[log p

(x)] =

Z(θ

′

)

(x) log p

(

)]

其中：Z(θ

′

) = E

(x)]。

如果

(

)

被训练的很好，但不是最优，

∀

，

(

)

在

0.5

到

，我们有：当 m → ∞

时，almost surely

E({x

}

i=1

)∇

KL(p

||p

) > 0

http://www.ma-xy.com 100 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

Mali GAN 算法

Mali GAN 的伪代码如 (5) 所示

算法 5 Minibatch stochastic gradient descent training of Mali GAN

1: 初始化：一个含参数 θ

的生成器 p

；一个含参数 θ

的判别器 D(x)；baseline b；迭代数 t，

max

；判别器训练次数 k；批量大小 m。

2: for t = 1, 2, . . . , t

max

3: // 更新 D

4: for k steps do

5: sample minibatch of m noise sample {z

(1)

, z

(2)

, . . . , z

(m)

} from P

；生成 m 个假样本

(1)

= G(z

(1)

), x

(2)

= G(z

(2)

), . . . , x

(m)

= G(z

(m)

)。

6: sample minibatch of m example {x

(1)

, x

(2)

, . . . , x

(m)

} from P

，即从原始数据 {x

}

i=1

中挑出 m 个。

7: 求 D 的梯度

∇



i=1

[log D

(i)

) + log(1 − D

(i)

)))]

8: 求 D

t+1

= D

+ ∇

；

9: end for

10: // 更新 G

11: sample minibatch of m noise sample {z

(1)

, z

(2)

, . . . , z

(m)

} from P

；

12: 计算梯度



i=1



(G(z

(i)

))



(G(z

(i)

))

− b



∇log p

(G(z

(i)

))

13: 更新 G

t+1

= G

+ ∇

14: end for

http://www.ma-xy.com 101 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

1.6.7 Boundary Seeking GAN

BGAN 模型建立

在 Mali GAN 中，当 p

(x) 已知时，在 D(x) 给定后，就可以得到 p

的近似 ˜p

和 q。并且

(x) =



g(x|z) p(z)



g(x, z)dz



g(x|z)p(z)dz

G 的目标是使 q 和 p

的 KL 距离最小

min

KL(q(x)||p

(x))

设 G 的参数为 θ

，有

∇

KL(q(x)||p

(x))

= ∇



q(x) log

q(x)

(x)

≈ −



q(x)∇

log p

(x)

= −



(x)

D(x)

1 − D(x)

∇

log p

(x)

= −



g(x|z)p(z)

D(x)

1 − D(x)

∇

log p

(x)

其中：Z 是归一化因子，Z =



(x)

D(x)

1−D(x)

上面这个梯度 ∇

需要用 MC 等方法近似，并且会有很大的方差，尤其在解决 Z 时。The

intuition here is to note that, as the conditional density,g(x|z) is unimodal(单峰的)，g(x|z) 可

以用来构建一个和 q(x) 类似的分布

˜p

g(x|z)

D(x)

1 − D(x)

其中：我们使用了 log p

(x) = log g(x|z) + log p(z)，Z



g(x|z)

D(x)

1−D(x)

是边缘，确保 ˜p

是

一个概率分布。The gradients then become

∇

KL(˜p

(x)||g(x|z)) ≈−



˜p

(x)∇

(x|z)

≈ −



˜w

(m)

∇

log g(x

(m)

|z)

其中：˜w

(m)

∑

′

)

和 w

(m)

D(x

(m)

)

1−D(x

(m)

)

分别是归一化和非归一化权重；x

(m)

是给定 z 后生

成器生成的样本。当从 D(x) 角度看样本是相当糟糕时，即 w

(m)

很大或很小时，归一化是有帮

助的。

http://www.ma-xy.com 102 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

可以采用批量样本来更新

∇

∝



˜w

(m)

∇

log g(x

(m)

)

BGAN 程序

Boundary Seeking GAN 的 TensorFolw 程序如下

1 import te n s orflo w as t f

2 from tenso r f l o w . examples . t u t o r i a l s . mnist import input_data

3 import numpy as np

4 import m atp l otl ib . pyplot as p l t

5 import m atp l otl ib . g r i d spec as g r i dspec

6 import os

7 mb_size = 32

8 X_dim = 784

9 z_dim = 64

10 h_dim = 128

11 l r = 1e−3

12 d_steps = 3

13 mnist = input_data . read_data_sets ( ’ . . / . . / MNIST_data ’ , one_hot=True )

14 de f p l o t ( samples ) :

15 f i g = pl t . f i g u r e ( f i g s i z e =(4, 4) )

16 gs = g r idspe c . GridSpec (4 , 4)

17 gs . update ( wspace =0.05 , hspace =0.05)

18 f o r i , sample in enumerate ( samples ) :

19 ax = p l t . subplot ( gs [ i ] )

20 p l t . a x i s ( ’ o f f ’ )

21 ax . s e t _x t i c kla b e l s ( [ ] )

22 ax . s e t _y t i c kla b e l s ( [ ] )

23 ax . set_aspect ( ’ equ al ’ )

24 p l t . imshow ( sample . reshape (28 , 28) , cmap=’ Greys_r ’ )

25 ret ur n f i g

26 de f x a v i e r_init ( s i z e ) :

27 in_dim = s i z e [ 0 ]

28 xavier_stddev = 1 . / t f . s q r t (in_dim / 2 . )

29 ret ur n t f . random_normal ( shape=s i z e , stddev=xavier_stddev )

30 de f log ( x) :

31 ret ur n t f . l o g ( x + 1e−8)

32 X = t f . p laceh o l d e r ( t f . f l o a t 3 2 , shape=[None , X_dim] )

33 z = t f . p l aceho l d e r ( t f . f l o a t 3 2 , shape=[None , z_dim ] )

34 D_W1 = t f . Variabl e ( x a v i e r _ i n it ( [ X_dim, h_dim ] ) )

35 D_b1 = t f . Variable ( t f . z e r o s ( shape=[h_dim] ) )

36 D_W2 = t f . Variabl e ( x a v i e r _ i n it ( [ h_dim, 1 ] ) )

37 D_b2 = t f . Variable ( t f . z e r o s ( shape = [1] ) )

38 G_W1 = t f . Varia bl e ( x a v i e r _ i nit ( [ z_dim , h_dim ] ) )

39 G_b1 = t f . Variable ( t f . z e r o s ( shape=[h_dim ] ) )

40 G_W2 = t f . Varia bl e ( x a v i e r _ i nit ( [ h_dim, X_dim] ) )

41 G_b2 = t f . Variable ( t f . z e r o s ( shape=[X_dim] ) )

42 theta_G = [G_W1, G_W2, G_b1, G_b2]

43 theta_D = [D_W1, D_W2, D_b1, D_b2]

44 de f sample_z (m, n) :

http://www.ma-xy.com 103 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

45 ret ur n np . random . uniform ( −1. , 1 . , s i z e =[m, n ] )

46 de f ge ner ator ( z ) :

47 G_h1 = t f . nn . re l u ( t f . matmul( z , G_W1) + G_b1)

48 G_log_prob = t f . matmul(G_h1, G_W2) + G_b2

49 G_prob = t f . nn . sigmoid (G_log_prob)

50 ret ur n G_prob

51 de f d i s c r i m in a t or (x) :

52 D_h1 = t f . nn . r e lu ( t f . matmul(x , D_W1) + D_b1)

53 out = t f . nn . sigmoid ( t f . matmul(D_h1, D_W2) + D_b2)

54 ret ur n out

55 G_sample = ge ner ato r ( z )

56 D_real = di s c r i m in a t or (X)

57 D_fake = d i s c ri m i n at o r (G_sample)

58 D_loss = −t f . reduce_mean ( l o g ( D_real ) + lo g (1 − D_fake ) )

59 G_loss = 0. 5 * t f . reduce_mean ( ( l o g ( D_fake) − l o g (1 − D_fake ) ) **2)

60 D_solver = ( t f . t r ai n . AdamOptimizer ( l ea rni ng_ rat e=l r )

61 . minimize ( D_loss , v a r _ l i s t=theta_D ) )

62 G_solver = ( t f . t r a i n . AdamOptimizer( lear nin g_r ate=l r )

63 . minimize ( G_loss , v a r _l i st=theta_G ) )

64 s e s s = t f . Ses s i on ( )

65 s e s s . run ( t f . g l o b a l _ v a r i a b l e s _ i n i t i a l i z e r ( ) )

66 i f not os . path . e x i s t s ( ’ out/ ’ ) :

67 os . makedirs ( ’ out/ ’ )

68 i = 0

69 f o r i t in range (1000000) :

70 X_mb, _ = mnist . tr a i n . next_batch ( mb_size )

71 z_mb = sample_z ( mb_size , z_dim)

72 _, D_loss_curr = se s s . run (

73 [ D_solver , D_loss ] ,

74 fee d_dict={X: X_mb, z : z_mb}

75 )

76 _, G_loss_curr = s e s s . run (

77 [ G_solver , G_loss ] ,

78 fee d_dict={X: X_mb, z : sample_z (mb_size , z_dim) }

79 )

80 i f i t % 1000 == 0:

81 p r i n t ( ’ I t e r : {}; D_loss : { : . 4 } ; G_loss : { : . 4 } ’

82 . format ( i t , D_loss_curr , G_loss_curr ) )

83 samples = s e s s . run (G_sample , feed_ di ct={z : sample_z (1 6 , z_dim) })

84 f i g = p l o t ( samples )

85 p l t . s a v e f i g ( ’ out /{ }.png ’

86 . format ( s t r ( i ) . z f i l l ( 3) ) , bbox_inches=’ t i g ht ’ )

87 i += 1

88 p l t . c l o s e ( f i g )

http://www.ma-xy.com 104 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

1.6.8 Mode Regularized GAN

MRGAN 模型建立

GAN 在许多任务上都表现良好，但 GAN 有两大缺点：1. 训练极不稳定；2. 生成的图片多

样性较差。和无监督 GAN 相比，有监督 CGAN 的训练要相对稳定一些。而 CGAN 相对 GAN

而言，其目标中多了一个 I(c; G(z, c))，也就是说，就是此项让 GAN 变得稳定了一些。而此项可

以被视为一个正则项，我们自然考虑其他的正则方法，文献33就考虑了一些正则化 GAN。

假设生成器 G 是 G(z) : Z → X 的映射，相应的，我们考虑一个 encoder E(x) : X → Z。并

且假设 d 是某一种相似性度量，p

是真实分布，p

是生成分布。我们使用 E

x∼p

[d(x, G ◦ E(x)]

作为正则项，其中 G ◦ E 是一个自动编码器。for x ∈ M

，如果 G ◦ E 是一个好的自动编码器，

则 G ◦ E 应该和 M

非常接近。在训练 G 时，添加正则项 E

x∼p

[d(x, G ◦ E(x)]

= −E

z∼p

[log D(G(z))] + E

x∼p

[λ

d(x, G ◦ E(x)) + λ

log D(G ◦ E(x))]

= E

x∼p

[λ

d(x, G ◦ E(x)) + λ

log D(G ◦ E(x))]

The proposed algorithm divides the training procedure of GANs into two steps: a manifold

step and a diusion step. In the manifold step, we try to match the generation manifold and the

real data manifold with the help of an encoder and the geometric metric loss. In the diusion

step, we try to distribute the probability mass on the generation manifold fairly according to the

real data distribution.

MRGAN 程序

MRGAN 的伪代码如 (6) 所示

MRGAN 的 pytorch 程序如下

1 import torc h

2 import torc h . nn

3 import torc h . nn . fu n c t io n a l as nn

4 import torc h . autograd as autograd

5 import torc h . optim as optim

6 import numpy as np

7 import m atp l otl ib . pyplot as p l t

8 import m atp l otl ib . g r i d spec as g r i dspec

9 import os

10 from torch . autograd import Variab le

11 from tenso r f l o w . examples . t u t o r i a l s . mnist import input_data

12 mnist = input_data . read_data_sets ( ’ . . / . . / MNIST_data ’ , one_hot=True )

13 mb_size = 32

14 z_dim = 128

15 X_dim = mnist . t r a in . images . shape [ 1 ]

16 y_dim = mnist . t ra i n . l a b e l s . shape [ 1 ]

17 h_dim = 128

18 cnt = 0

19 l r = 1e−4

20 lam1 = 1e−2

http://www.ma-xy.com 105 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

算法 6 Minibatch stochastic gradient descent training of MRGAN

1: Manifold Step:。

2: 从真实分布 p

中抽取 m 个样本 {x

, x

, . . . , x

}。

3: 使用 SGD 来更新判别器 D

∇



i=1

[log D

) + log(1 − D

(G(E(x

))))]

4: 使用 SGD 来更新生成器 G

∇



i=1

[λ log D

(G(E(x

))) − ||x

− G(E(x

))||

]

5: Diusion Step:

6: 从真实分布 p

中抽取 m 个样本 {x

, x

, . . . , x

}。

7: 从 prior 分布 p

中抽取 m 个样本 {z

, z

, . . . , z

}。

8: 使用 SGD 更新判别器 D

∇



i=1

[log D

(G(E(x

))) + log(1 − D

))]

9: 使用 SGD 来更新生成器 G

∇



i=1

[log D

(G(z

))]

http://www.ma-xy.com 106 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

21 lam2 = 1e−2

22 de f log ( x) :

23 ret ur n torch . log (x + 1e−8)

24 E = torch . nn . S e que n tial (

25 to rch . nn . Linear (X_dim, h_dim) ,

26 to rch . nn .ReLU( ) ,

27 to rch . nn . Linear (h_dim, z_dim)

28 )

29 G = torch . nn . S e que n t ial (

30 to rch . nn . Linear (z_dim , h_dim) ,

31 to rch . nn .ReLU( ) ,

32 to rch . nn . Linear (h_dim, X_dim) ,

33 to rch . nn . Sigmoid ( )

34 )

35 D = torch . nn . S e que n tial (

36 to rch . nn . Linear (X_dim, h_dim) ,

37 to rch . nn .ReLU( ) ,

38 to rch . nn . Linear (h_dim, 1) ,

39 to rch . nn . Sigmoid ( )

40 )

41 de f reset_grad ( ) :

42 G. zero_grad ( )

43 D. zero_grad ( )

44 E. zero_grad ( )

45 de f sample_X( s i z e , include_y=F al se ) :

46 X, y = mnist . t ra i n . next_batch ( s i z e )

47 X = Variab le ( torch . from_numpy(X) )

48 i f include_y :

49 y = np . argmax(y , a x i s =1) . astype (np . in t )

50 y = V ariable ( torch . from_numpy(y ) )

51 return X, y

52 ret ur n X

53 E_solver = optim .Adam(E. parameters ( ) , l r=l r )

54 G_solver = optim .Adam(G. parameters () , l r=l r )

55 D_solver = optim .Adam(D. parameters ( ) , l r=l r )

56 f o r i t in range (1000000) :

57 ””” D iscri min at or ”””

58 # Sample data

59 X = sample_X(mb_size )

60 z = Variable ( torch . randn ( mb_size , z_dim) )

61 # Dicriminator_1 forward−lo ss−backward−update

62 G_sample = G( z )

63 D_real = D(X)

64 D_fake = D(G_sample)

65 D_loss = −torch . mean( lo g ( D_real ) + log (1 − D_fake ) )

66 D_loss . backward ( )

67 D_solver . s tep ( )

68 # Housekeeping − re s e t grad i ent

69 reset_grad ()

70 ””” Generator ”””

71 # Sample data

72 X = sample_X(mb_size )

73 z = Variable ( torch . randn ( mb_size , z_dim) )

http://www.ma-xy.com 107 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

74 # Generator forward−lo s s−backward−update

75 G_sample = G( z )

76 G_sample_reg = G(E(X) )

77 D_fake = D(G_sample)

78 D_reg = D(G_sample_reg)

79 mse = torch . sum ( (X − G_sample_reg) **2 , 1)

80 re g = to rch . mean( lam1 * mse + lam2 * lo g (D_reg) )

81 G_loss = −torch . mean( l o g ( D_fake ) ) + reg

82 G_loss . backward ( )

83 G_solver . step ()

84 # Housekeeping − re s e t grad i ent

85 reset_grad ()

86 ””” Encoder ”””

87 # Sample data

88 X = sample_X(mb_size )

89 z = Variable ( torch . randn ( mb_size , z_dim) )

90 G_sample_reg = G(E(X) )

91 D_reg = D(G_sample_reg)

92 mse = torch . sum ( (X − G_sample_reg) **2 , 1)

93 E_loss = torch . mean( lam1 * mse + lam2 * lo g (D_reg) )

94 E_loss . backward ( )

95 E_solver . step ( )

96 # Housekeeping − re s e t grad i ent

97 reset_grad ()

98 # Print and pl o t every now and then

99 i f i t % 1000 == 0:

100 p r i n t ( ’ It e r −{}; D_loss : {} ; E_loss : { }; G_loss : {} ’

101 . format ( i t , D_loss . data .numpy( ) , E_loss . data . numpy() , G_loss . data .numpy

() ) )

102 samples = G( z ) . data .numpy( ) [ : 1 6 ]

103 f i g = pl t . f i g u r e ( f i g s i z e =(4, 4) )

104 gs = gridsp e c . GridSpec (4 , 4)

105 gs . update ( wspace =0.05 , hspace =0.05)

106 f o r i , sample in enumerate ( samples ) :

107 ax = pl t . sub plot ( gs [ i ] )

108 p lt . a x i s ( ’ o f f ’ )

109 ax . s et _ x t ic k l a bel s ( [ ] )

110 ax . s et _ y t ic k l a bel s ( [ ] )

111 ax . set_aspect ( ’ equal ’ )

112 p lt . imshow ( sample . reshape (28 , 28) , cmap=’ Greys_r ’ )

113 i f not os . path . e x i s t s ( ’ out/ ’ ) :

114 os . makedirs ( ’ out/ ’ )

115 p l t . s a v e f i g ( ’ out /{ }.png ’

116 . format ( s t r ( cnt ) . z f i l l ( 3) ) , bbox_inches=’ t i g h t ’ )

117 cnt += 1

118 p l t . c l o s e ( f i g )

119

http://www.ma-xy.com 108 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

1.6.9 DCGAN

由于 GAN 的模型不稳定性问题比较突出，因而在 2016 年出现的关于 GAN 训练技巧的成

果有许多，目前被广泛应用的主要包括：DCGAN

º»

(ICLR-2016) 和 Improved GAN (NIPS-2016

workshop)，特别是 DCGAN，几乎在各大 GAN 模型中都能看到它的身影。

DCGAN26 的模型结构如图 (1.74) 所示所示

图 1.74: DCGAN 网络结构图

其输入为 100 维的噪声向量，经过一系列的 strided conv 操作，形成 64×64 的图像，即为

G(z)。而判别器结构与之类似，只是是由一系列的卷积操作构成 (而非 strided conv)，最后由

average pooling 形成判别器的标量输出。在 DCGAN26中，最主要的是提出了以下四条有助于稳

定训练 GAN 的方法：

1. 去掉 max pooling 操作：用 strided conv 代替原来的 pooling 操作，使网络自动学习合适的

采样核函数；

2. 去掉全连接层：用 global average pooling 代替全连接层；虽然该操作可能会导致收敛速度

变慢，但有助于整体训练的稳定性；

3. 加入 BN 层：之前的 LAPGAN13指出，如果像常规模型一样对所有层都施加 BN，则会引

起 GAN 的模型崩溃，而 DCGAN 通过对 generator 的输出层和 discriminator 的输入层不

用 BN，而其他层都用 BN，则缓解了模型崩溃问题，并且有效避免了模型的振荡和不稳定

问题。

4. 激活函数的选择：在 generator 中除了输出层用 tanh 外，其余都用 RELU 函数；而在

discriminator 中采用 leaky ReLU 函数。

http://www.leiphone.com/news/201703/Y5vnDSV9uIJIQzQm.html

https://github.com/roatienza/Deep-Learning-Experiments/blob/master/Experiments/Tensorow/GAN/dcgan_mnist.py

http://www.ma-xy.com 109 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

1.6.10 Improved GAN

文献32主要给出了 5 条有助于 GAN 稳定训练的经验：

1. 特征匹配：让生成器产生的样本与真实样本在判别器中间层的响应一致，即使判别器从真

实数据和生成数据中提取的特征一致，而不是在判别器网络的最后一层才做判断，有助于

提高模型的稳定性；其实验也表明在一些常规方法训练 GAN 不稳定的情况中，若用特征

匹配则可以有效避免这种不稳定；

2. Minibatch Discrimination：在判别器中，不再每次对每一个生成数据与真实数据的差异性

进行比较，而是一次比较一批生成数据与真实数据的差异性。这种做法提高了模型的鲁棒

性，可以缓解生成器输出全部相似或相同的问题；

3. Historical Averaging：受 ctitious play 的游戏算法启发，作者提出在生成器和判别器的目

标函数中各加一个对参数的约束项



θ −



i=1



其中：θ

表示在时刻 i 的模型参数，该操作可以在一些情况下帮助模型达到模型的平衡点；

4. 单边标签平滑 (One-sided Label Smoothing)：当向 GAN 中引入标签数据时，最好是将常

规的 0、1 取值的二值标签替换为如 0.1、0.9 之类的平滑标签，可以增加网络的抗干扰能力；

但这里之所以说单边平滑，是因为假设生成数据为 0.1 而非 0 的话会使判别器的最优判别

函数的形状发生变化，会使生成器偏向于产生相似的输出，因此对于取值 0 的标签保持不

变，不用 0.1 一类的小数据替换，即为单边标签平滑；

5. Virtual Batch Normalization：VBN 相当于是 BN 的进阶版，BN 是一次对一批数据进行

归一化，这样的一个副作用是当“批”的大小不同时，BN 操作之后的归一化常量会引起训

练过程的波动，甚至超过输入信号 z 的影响 (因 z 是随机噪声)；而 VBN 通过引入一个参

考集合，每次将当下的数据

加入参考集合构建一个新的虚拟的

batch

，然后在这个虚拟

的 batch 上进行归一化，如此可以缓解原始 BN 操作所引起的波动问题。

1.6.11 Least Squares GAN

LSGAN 模型建立

在 GAN 中，设 D(x) ∈ [0, 1] 为样本 x 为真的概率，作为损失，我们将其取 log，设定为

log D(x)。我们的目标是用 D 将 G 所生成的样本/分布“拖”到真实数据流 (data manifold) 当

中 (1 维线二维面三维体三维以上称为流形)，从而使 G 生成的样本类似于 p

(x) 的样本。

我们知道常规 GAN 中，判别器使用的是对数损失 log loss(1 − D 为损失，再取 log)。就简

单的二分类问题而言，对数损失带来的决策边界如图 (1.75) 所示

http://www.ma-xy.com 110 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

图 1.75: LSGAN-sigmoid 决策边界图

因为 D 使用的是 sigmoid 函数，sigmoid 函数饱和的十分迅速，所以即使是十分小的数据点

x，该函数也会迅速忽略 x 到决策边界的距离。这意味着，sigmoid 函数本质上不会惩罚远离决

策边界的 x，也就说明，我们满足于将样本正确分类，当 x 变得很大时，D 的梯度就会快速下降

为 0。因此，sigmoid 不关心样本点到决策边界的距离，只关心是否分类正确。而 G 的训练依赖

于 D 的梯度，当 D 的梯度为 0 时，G 就不再更新 (GAN 训练不稳定)。

Least squares loss：就简单的二分类问题而言，最小平方损失的决策如图 (1.76) 所示

图 1.76: LSGAN-L2 决策边界图

在 L2 损失中，距 w 远的数据将会获得与距离成正比的惩罚，因此梯度只有在 w 完全拟合 x

的情况下才为 0。如果 G 没有捕获到数据流形，那么这将能确保 D 服从多信息梯度 (information

gradients)。在优化过程中，G 使 D 的损失减小的唯一方式是尽可能的接近 W(x = G(z) 接近

w)。

LSGAN 设置 L2 损失 D(x) ∈ [0, 1]，将真样本概率值 D(x) 的期望设置为 b，假样本概率值

D(x) 的期望设置为 a，有

min

V (D) =

x∼p

[(D(x) − 1)

] +

z∼p

p[(D(G(z)) − 0)

]

min

V (G) =

z∼p

[(D(G(z)) − 1)

]

http://www.ma-xy.com 111 http://www.ma-xy.com

http://www.ma-xy.com

1.6 对抗生成网络 GAN 第一章深度学习

我们将 D 和 G 的目标进行如下扩展

min

V (D) =

x∼p

[(D(x) − b)

] +

z∼p

p[(D(G(z)) − a)

]

min

V (G) =

x∼p

[(D(x) − c)

] +

z∼p

[(D(G(z)) − c)

]

并且，注意到在 G 的目标中添加了 E

x∼p

[(D(x) − c)

]，这并不改变最优值。在 G 给定的情况

下，最优判别器为

∗

(x) =

(x) + ap

(x)

(x) + p

(x)

将 D

∗

带入到 G 的目标 V (G) 中，有

2C(G) = E

x∼p

[(D

∗

(x) − c)

] + E

x∼p

[(D

∗

(x) − c)

]

= E

x∼p





(x) + ap

(x)

(x) + p

(x)

− c





+ E

x∼p





(x) + ap

(x)

(x) + p

(x)

− c







(x)



(b − c)p

(x) + (a − c)p

(x)

(x) + p

(x)





(x)



(b − c)p

(x) + (a − c)p

(x)

(x) + p

(x)





[(b − c)p

(x) + (a − c)p

(x)]

(x) + p

(x)



[(b − c)(p

(x) + p

(x)) − (b − a)p

(x)]

(x) + p

(x)

如果我们设置 b − c = 1, b − a = 2，则有

2C(G) =



(2p

(x) − (p

(x) + p

(x)))

(x) + p

(x)

= χ

pearson

+ p

||2p

)

其中：χ

pearson

是 Pearson χ

散度，可以参考 f -GAN。这说明此时的 LSGAN 是 f -GAN 的特

例。我们可以设置 b = 1, a = −1, c = 0，当然我们还可以设置其他值。

LSGAN 程序

最小二乘 GAN(LSGAN) 的 TensorFlow 程序如下

1 import te n s orflo w as t f

2 from tenso r f l o w . examples . t u t o r i a l s . mnist import input_data

3 import numpy as np

4 import m atp l otl ib . pyplot as p l t

5 import m atp l otl ib . g r i d spec as g r i dspec

6 import os

7 mb_size = 32

8 X_dim = 784

9 z_dim = 64

10 h_dim = 128

11 l r = 1e−3

http://www.ma-xy.com 112 http://www.ma-xy.com

http://www.ma-xy.com

第一章深度学习 1.6 对抗生成网络 GAN

12 d_steps = 3

13 mnist = input_data . read_data_sets ( ’ . . / . . / MNIST_data ’ , one_hot=True )

14 de f p l o t ( samples ) :

15 f i g = pl t . f i g u r e ( f i g s i z e =(4, 4) )

16 gs = g r idspe c . GridSpec (4 , 4)

17 gs . update ( wspace =0.05 , hspace =0.05)

18 f o r i , sample in enumerate ( samples ) :

19 ax = p l t . subplot ( gs [ i ] )

20 p l t . a x i s ( ’ o f f ’ )

21 ax . s e t _x t i c kl a b e ls ( [ ] )

22 ax . s e t _y t i c kl a b e ls ( [ ] )

23 ax . set_aspect ( ’ equal ’ )