http://www.ma-xy.com

第一章神经网络 1

1.1 机器学习基本模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 回归模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.2 支持向量机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.3 常见的损失函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.4 二分类阈值模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.1.5

二分类

logistic

回归

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.6 偏最小二乘 logistic 回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1.7 logistic 回归的另一种形式 . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.1.8 MATLAB 的 logistic 回归示例 . . . . . . . . . . . . . . . . . . . . . . . . 13

1.1.9 多分类 softmax 回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.1.10 人工神经网络 ANN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.2 前向型神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.2.1 感知器 perception . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.2.2 线性神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.2.3 BP 神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.2.4 小波神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.2.5 RBF 径向基神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1.2.6 广义回归网络 GRNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

1.3 竞争型神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

1.3.1 自组织特征映射 SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

1.3.2 自适应共振网络 ARF-i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

1.3.3 学习向量量化神经网络 LVQ . . . . . . . . . . . . . . . . . . . . . . . . . . 46

1.3.4 对向传播网络 CPN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

1.4 反馈型神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

1.4.1 Hopeld 网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

1.4.2 双向联想记忆网络 BAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

1.4.3 盒中脑 BSB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

1.4.4 极限学习机 ELM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

http://www.ma-xy.com

1.4.5 玻尔兹曼机 BM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

1.4.6 限制玻尔兹曼机 RBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

http://www.ma-xy.com 2 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络

1.1 机器学习基本模型

这一章，我们主要讨论机器学习中的分类回归问题。关于分类问题，前面我们已经单独介绍

了支持向量机 SVM，关于回归问题，前一章我们也系统的介绍了回归模型。下面，我们将梳理

一下回归分类模型，介绍一些损失函数，并重点介绍用于分类问题的 Logistics 回归，最后，我们

将引入神经网络 ANN，后面章节将着重讨论神经网络模型。

观察前面介绍的分类模型 (SVM) 和回归模型，可以发现，其实分类问题和回归问题是相似

的，分类问题在于求解分类线，使样本能够分开，回归问题在于找回归线，使样本尽可能靠近回

归线，二者的本质都是根据样本 (x

, y

)

i=1

来求解函数关系 y = f (x)。我们来梳理一下分类回归

模型，设共有 n 个变量 x

，m 个样本。

1.1.1 回归模型

前一章我们已经介绍了一些回归模型，比如：线性回归、广义线性回归、贝叶斯回归等等。

线性回归的目标是寻找一个超平面

y = w

使估计量和样本之间的离差平方和最小

min

||y − w

x||

(1.1)

为了不限于线性，我们将 x 扩展为 ϕ(x)，有

y = w

ϕ(x)

其中：w ∈ R

，x ∈ R

，ϕ = (ϕ

, ϕ

, . . . , ϕ

)

。总之，我们要确定 w，来求解回归线 w

ϕ(x)。

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

1.1.2 支持向量机

对于二分类问题而言，支持向量机的目标是寻找一个超平面，不仅使两类分开，而且使最大

距离最小

max

w,b

||w||

(1.2)

s.t. y

ϕ(x) + b) ⩾ 1

其中：w ∈ R

，x ∈ R

。

1.1.3 常见的损失函数

无论是线性回归还是二分类支持向量机，回归分类问题最终都变为一个最优化问题 (1.1)(1.2)。

在机器学习中，目标函数常被称为损失函数，因为我们希望估计值 ˆy

和真实值 y

之间的损失尽

可能小 (这即是我们的目标)，换句话说，最小化损失即为我们的目标。我们用 ℓ(y

, ˆy

) 来度量这

种损失，下面我们来介绍一些常用的损失函数 ℓ(y

, ˆy

)。问：为什么要将所有样本损失相加



i=1

，

不能忽略一些样本的损失吗？损失函数 (目标) 的一般形式为

L(w) =



i=1

ℓ(y

, ˆy

) =



i=1

(w)

(1) 0 - 1 损失函数

ℓ(y

, ˆy

) =







1 ˆy

= y

0 ˆy

= y

(2) 感知损失函数

ℓ(y

, ˆy

) =







1 |ˆy

− y

| > t

0 |ˆy

− y

| ⩽ t

(3)Hinge loss(合页损失)

ℓ(y

, ˆy

) = max{0, 1 − y

ˆy

}

其中：y

∈ {−1, 1}。该损失函数可以用来解决间隔最大化问题，比如支持向量机 SVM。

(4) 平方误差损失函数

ℓ(y

, ˆy

) = ( y

− ˆy

)

(5) 绝对误差损失函数

ℓ(y

, ˆy

) = |y

− ˆy

http://www.ma-xy.com 2 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.1 机器学习基本模型

(6) 指数损失函数

ℓ(y

, ˆy

) = e

(−y

ˆy

)

其中：y

∈ {−1, 1}。Adaboost 算法就是采用了这种损失函数，在 Adaboost 中，经过 k 次迭代

后，可以得到

ˆy

(k)

(x) = ˆy

(k−1)

(x) + α

(k)

(x)

Adaboost 每次迭代的目标都是

min

α,G



i=1

exp



−y

ˆy

(k)





i=1

exp



−y



ˆy

(k−1)

(x) + α

(k)

(x)



(7) 交叉熵损失函数

ℓ(y

, ˆy

) = y

log ˆy

+ (1 − y

) log(1 − ˆy

)

其中：y

∈ {0, 1}。logistic 回归采用了这种损失函数，并规定 0 log · = 0。

(8) 最大似然目标。如果我们有了各样本 y

的分布，我们自然希望样本出现的概率最大，于是目

标为样本的联合概率 (极大似然函数) 最大。

L(w) = P {y

, . . . , y

}

(9) 最大熵损失函数。上面，我们介绍了极大似然函数 (联合概率密度)，下面，介绍熵 - 最大熵

方法。设一个随机变量 x 的概率分布为 p(x)，则它的信息熵定义为

H(x) =



p(x

) log p(x

)

其中：p(x

) 表示随机变量 x 取值为 x

的概率，p(x

) log p(x

) 为平均互信息量，记为 I(x

)。现

在，我们可以定义函数

H(y

) =



p(y

) log p(y

)

目标设置为

L(w) =



i=1

H(y

)

我们使熵最大化。

(10) 相对熵 (KL 距离)，KL 距离用来刻画 2 个随机变量分布的接近程度，相对熵的定义为

D(p||q) =



p(x) log

p(x)

q(x)

http://www.ma-xy.com 3 http://www.ma-xy.com

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

于是，定义相对熵目标

ℓ(y

, ˆy

) =



p(y

) log

p(y

)

q(ˆy

)

我们使相对熵最小化。

(11) 互信息量。熵、相对熵和互信息皆是信息论中的概念，互信息量可以看成是一个随机变量中

包含另一个随机变量的信息量。设两个随机变量为 x, y，其联合概率分布为 p(x, y)，边缘分布为

p(x), p(y)，则它们的互信息量定义为

I(x, y) =



p(x, y) log

p(x, y)

p(x)p(y)

于是，定义互信息量目标为

ℓ(y

, ˆy

) =



ˆy

p(y

, ˆy

) log

p(y

, ˆy

)

p(y

)p(ˆy

)

(12)

正则化损失函数

L(w) =



i=1

ℓ(y

, ˆy

) + λR(w)

其中：λ 为正则化参数，R(w) 为正则项或罚项。注：对于相对熵和互信息量应该是可行的，尚未

确定。

1.1.4 二分类阈值模型

现在，我们仍然考虑二分类问题。X ∈ R

m×n

(m 个目标 n 个变量)，y ∈ B

，y

∈ {0, 1}。我

们仍然可以写出一条线 (超平面)w

ϕ(x)，但是，这样给出的估计 ˆy = w

ϕ(x) 并不是 0, 1 型的，

而是连续的，而且 ˆy ∈ R

, ˆy

∈ R，其值远超 0 或 1。既然如此，我们可以设置一个分割点 (阈

值)θ，使 ˆy

> θ 为 1， ˆy

< θ 为 0。接下来的问题是：我们应该如何设置阈值 θ？

方法 1：θ 为 ˆy = w

ϕ(x) 的均值，θ = E(ˆy)。这样，θ 虽然是一个未知量，但它隐含在了 w

中，即我们只需要求 w 即可，而不用为 θ 特别求解。

方法 2：我们可以根据样本数据 y

的类别比例来决定 θ。比如：样本 y

中 0 和 1 的比例为

2 : 1 ，那么，我们在给出 ˆy = w

ϕ(x) 后，我们取 ˆy 的

分位数来作为分割点，分位数前的 ˆy

设

置为 0，之后的设置为 1。

依据上面的方法，我们可以写出如下分类模型

ˆy = F(w

ϕ(x)|θ)

其中：F(·|θ) 是一个阈值函数

F(x|θ) =







0 x ⩽ θ

1 x > θ

http://www.ma-xy.com 4 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.1 机器学习基本模型

1.1.5 二分类 logistic 回归

模型建立

仍然来讨论二分类问题，y

∈ {0, 1}。我们仍然能够找到一条线

ˆy = w

ϕ(x)

¬我们希望 ˆy 的直方图类似图 (1.1) 的情况 (假设样本中，2 个类别的样本数目差不多)

图 1.1: 二分类估计模拟直方图

也就是说，更多的 ˆy 分散在两端，这样有利于我们分类，ˆy 越大，样本越可能取值为 1，ˆy

越小，样本越可能取值为 0。

我们自然有当 ˆy 值越大时，y 取值为 1 的可能越大的规律，而恰好有这样一个 sigmoid 函数 f

，

如图 (1.2) 所示

图 1.2: sigmoid 函数图像

当 ˆy 越小时，函数值 z 越接近 0；当 ˆy 越大时，函数值 z 越接近 1。所以，我们不能仅局限

于 ˆy = f

(x) = w

ϕ(x)，还应该再进行一次函数变换 f

= sigmoid，于是，整个回归变为

ˆy = f

(x))

= f

ϕ(x))

1 + e

−w

ϕ(x)

如果我们把上面的 ˆy 视为样本 y = 1 的条件概率，于是有

P (y = 1|x) =

1 + e

−w

ϕ(x)

1 +

ϕ(x)

+ 1

http://www.ma-xy.com 5 http://www.ma-xy.com

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

推得

P (y = 1)

ϕ(x)

+ 1

⇒

− 1 =

ϕ(x)

⇒

− 1

= e

ϕ(x)

⇒

1 − P

= e

ϕ(x)

于是有了我们常见的 Logistic 回归模型

1 − P

= w

ϕ(x)

从另一个角度来看，w

ϕ(x) 的取值范围为 R，而 y ∈ {0, 1}。我们要把二者对应起来，P (y = 1)

的取值范围为 [0, 1]，那么

P (y = 1)

1 − P (y = 1)

∈ (0, ∞)

再对上式取 log，其值的范围就变为 R ≡ (−∞, ∞)，即

log

1 − P

∈ R

接下来的工作是：目标函数 (损失函数) 的确定以及优化算法的设计。

模型参数估计

上面建立的 logistic 回归方程为

P (y = 1|x) = f

ϕ(x))

1 + e

−w

ϕ(x)

将其写为概率形式

P (y

= 1 |x

) = p

1 + e

−w

ϕ(x

)

看到这个单样本的条件概率分布，我们就会想到极大似然估计，我们求使样本的联合概率密度最

大的 w。由于 y

∈ {0, 1}，所以上式也可以写出 y

的条件密度

P (y

) = p

(1 − p

)

1−y

为了处理方便，仍然假设样本独立同分布，于是它们的联合概率密度 (似然函数) 为

L(w|x) =



i=1

P (y

) =



i=1

(1 − p

)

1−y

http://www.ma-xy.com 6 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.1 机器学习基本模型

对上式取对数，有

log L(w|x) =



i=1

ln p

+ (1 − y

) ln(1 − p

)]



i=1



1 − p

+ ln(1 − p

)



我们的目标是求上面的对数似然函数的极大值点，即

max

log L(w|x)

将

ϕ(x

)

1 + e

ϕ(x

)

带入目标 log L(w|x)，有

log L(w|x) =



i=1



ϕ(x

) − ln



1 + e

ϕ(x

)



对上式 w 求导，有

∇log L(w) =



i=1

− p

)ϕ(x

)

在前面的线性回归当中，最大似然模型的极大点是解析形式的，即我们可以给出 w 的显式

计算公式，这是因为对数似然函数是 w 的一个二次函数。但是对 logistic 回归而言，不再有解析

解了，因为 sigmoid(f

) 函数是一个非线性函数。目标函数 −log L(w) 是一个凸函数，因此优化

模型存在唯一解。此外，对于 w 还有一种高效的迭代算法，这种算法是基于 Newton-Raphson 迭

代最优框架的。为最小化 −ln L(w) ≡ E(w)，一般的 Netwon - Raphson 的权重 w 更新公式为

w := w − H

−1

∇E(w)

由于

∇E(w) =



i=1

− p

)ϕ(x

)

H = ∇∇E(w) =



i=1

(1 − y

)ϕ(x

)ϕ

) = ϕ

Rϕ

其中：R 是一个 m ×m 的对角矩阵，R

= y

(1 −y

)，经过最优化的洗礼，H 是什么应该是清楚

的。我们看到，Hesse 矩阵不再是常量，而是通过权重 R 依赖于 w，这也解释了为什么 w 不存在

解析解。使用 0 ⩽ y

< 1，我们看到对任意向量 u，都有 u

u > 0(因为 H 是正定的，所以进行

了 Cholesby 分解)，因此，E(w) 是 w 的一个凸函数。这样，logistic 回归的 Newton - Raphson

http://www.ma-xy.com 7 http://www.ma-xy.com

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

更新公式变为

w : = w − (ϕ

Rϕ)

−1

(p − y)

= ( ϕ

Rϕ)

−1

(ϕ

Rϕw − ϕ

(p − y))

= ( ϕ

Rϕ)

−1

其中：Z 是一个 m 维向量，Z = ϕw −R

−1

(p −y)。上述 w 迭代公式的形式是一组加权最小二乘

问题的规范方程。由于权矩阵 R 不是常量，而是依赖于 w。我们必须迭代地应用规范方程，每

次使用新的 w 来计算 R，然后再来求解 w，因此，该算法被称为迭代加权最小平方算法 (IRLS)，

是 Rubin 于 1983 年开发的。

下面给出 E 的一个近似。和加权最小二乘问题一样，对角矩阵 R 可以看成偏差，因为 logistic

回归的 y 的均值和方差为

E(y) = p

V ar(y) = p(1 − p)

事实上，我们可以把 IRLS 看成变量空间 a ≜ w

ϕ(x) 的线性问题的解。这样，Z 的第 i

个元素 Z

就可以简单的看成这个空间中的有效目标值。Z

可以通过对当前操作点 w 附近的

logistic(sigmoid) 函数的局部线性近似的方法得到

(w) : ≈ a

(w) +



− p

)

= ϕ

w −

− y

(1 − p

)

= Z

IRLS 算法步骤如下：

Step1. 初始化 w

，容错误差 ε。

Step2. 计算 p

。对 i = 1 , . . . , m

= p

(w) =

ϕ(x

)

1 + e

ϕ(x

)

Step3. 计算 Z

。

= ϕ

)w −

− y

(1 − p

)

Step4. 更新 w。

w := (ϕ

wϕ)

−1

其中：R 为对角矩阵，R

= p

(1 − p

)。

Step5. 终止条件。不终止则返回 Step2。

http://www.ma-xy.com 8 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.1 机器学习基本模型

参数显著性检验

在前面的参数回归中，我们没有给出线性模型的系数显著性检验和拟合优度检验，而在一般

的计量经济学或者统计学书籍中都会有模型参数的显著性检验以及模型检验，并且在模型估计结

束后，各种统计软件 (R,SPSS 等) 都会给出相应的检验结果。下面，我们来简单的看一下 logistics

回归模型的系数显著性检验和模型拟合优度检验，很明显，这里用到的是统计基础中假设检验的

知识。

上面建立的 logistic 回归模型为

P (y = 1|x) =

1 + e

−w

ϕ(x)

其中：w = (w

, w

, . . . , w

)。前面我们曾提到过，如果实际中，某一系数 w

不应该存在，而我

们在建立模型时硬是将其设计在模型中，最后仍然会给出 w

的一个估计，虽然 w

可能不是很

合理。那么，我们如何检验模型中的参数是否应该存在呢？或者说如何检验模型的合理性。我们

知道，如果 w

不应该存在，我们就假设 w

= 0 ，然后用样本数据对其进行检验。

(1)

原假设

0 :

= 0(

= 1

, . . . , n

)

。对于此假设，常用的检验统计量有

Wald

检验统计

量和似然比检验统计量。Wald 检验统计量为

T =



ˆw

− 0

se( ˆw

)



∼ χ

(1)

对 Wald 检验，当 w 的绝对值很大时，se(w) 会膨胀，导致 Wald 统计量的值很小，第二类错误

概率增加，应拒绝 H0 却未拒绝。为此，可以使用如下的似然比统计量

G = −2 ln



不含x

似然值

含x

似然值



∼ χ

(1)

(2) 原假设 H0 : w

= w

= ··· = w

= 0 。对于此假设，Wald 检验统计量为

T =



ˆw

′

se( ˆw

′

)



∼ χ

(n)

似然比统计量为

G = 2





i=1

ln p

+ (1 − y

) ln(1 − p

)



− [n

ln(n

) + n

ln(n

) − n ln n] ∼ χ

(n)

其中：n

表示样本中 y

= 0 的样本数。

拟合优度检验

我们常用模型的离差平方和来衡量估计值与真实值之间的接近程度，下面，给出 3 个用于评

价模型好坏的度量

(1) 对数似然函数值

−2 log L = −2



i=1

+ (1 − y

) ln



1 − p

1 − y



http://www.ma-xy.com 9 http://www.ma-xy.com

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

−2 log L 越大，似然函数值越小，拟合效果越差。

(2)AIC。AIC(1973) 是 Akaike’s Information Criterion 的缩写，计算形式为

AIC = −2 log l + 2(k + s)

其中：k 为自变量个数，s 为反应变量类别总数减 1。多模型比较时，值越小，说明模型越好。

(3)SC。SC 是 Schnarts Criterion 的缩写，是 AIC 的改进，其计算形式为

SC = −2 log L + 2(k + s) − ln(n)

此外，对于分类模型，我们还有混淆矩阵 (错分矩阵) 和 ROC 曲线等评价准则，我们会在决

策树章节进行介绍。

注：估计量 w 的渐进方差和协方差可以有信息矩阵的逆估计出来，设信息矩阵为

I =

∂

L(w)

∂w

则方差为

V ar( ˆw) = I

−1

SE( ˆw

) = ( V ar(w

))

j = 1, 2, . . . , n

1.1.6 偏最小二乘 logistic 回归

无论是多元线性回归还是上面介绍的 logistic 回归，都可能存在共线性问题。关于共线性问

题，我们建立的线性回归模型为

y = w

+ w

+ ··· + w

+ ε

如果上面的自变量 x

, x

, . . . , x

之间互相相关，那模型就不好用了，比如 x

= 2x

，那么我们

就不需要 x

变量了，x

可以完全由 x

来代替，而且在 w 的求解公式中，我们要求 X 是非奇异

的，当 x

, x

之间具有线性相关性时，X 的行列式为 0。因此，我们在建立模型之前，要假设各

变量之间不相关。那么，我们如何检验各变量之间的相关性呢？对于这个问题，可以依据前面介

绍的变量相关性检验方法。另一个问题是：我们如何检验模型的共线性呢？这个问题可以参考基

础的计量经济学书籍。下面，我们来建立偏最小二乘 logistics 回归，此模型是维兹和德昂赫斯于

2002 年提出的。我们仍然假设有 n 个自变量 x

和 m 个样本，并设因变量 y 的分类数目 c 类。

模型共分为两大部分：第一部分是提取偏最小二乘成分，可以视为主成分分析；第二部分即为一

般的 logistics 回归建模。

提取偏最小二乘成分

(1)

提取第一个偏最小二乘成分

。

Step1. 分别建立因变量 y 对自变量 x

, j = 1, . . . , n 的普通 (无常数项)logistics 回归。在模型中，

http://www.ma-xy.com 10 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.1 机器学习基本模型

记 x

的回归系数为 w

∗

。

Step2.w

∗

= ( w

∗

, w

∗

, . . . , w

∗

)

。将 w

∗

标准化，得 w

∗





j=1

∗

)

Step3.

||w

其中：X 为样本矩阵，w 为向量。

(2) 提取第二个偏最小二乘成分 t

。

Step1.

X = t

+ X

其中：p

为回归系数

||t

为残差矩阵。记 X

为 X

的第 j 列。

Step2. 对每个 x

，建立 y 对 t

, X

的 logistics 回归，并记系数为 w

∗

。

Step3.w

∗

标准化后得到 w

。

Step4.

(3) 提取第 h 个最小二乘成分 t

。

Step1.

X = t

+ t

+ ··· + t

h−1

+ X

h−1

其中：X

h−1

为残差矩阵，X

h−1,j

为 X

的第 j 列向量，

k−1

||t

Step2. 对每个 x

，建立 y 对 t

, t

, . . . , t

h−1

, X

h−1,j

的 logistics 回归，记 w

为 X

h−1,j

的回归

系数。

Step3. 将 w

∗

标准化得到 w

。

Step4.

h−1

http://www.ma-xy.com 11 http://www.ma-xy.com

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

Step5. 将 t

表示为原始变量的线性组合

= X ˜w

其中：

˜w

h−1



k=1



I − w



建立 logistics 回归



P (y ⩽ c|t

, t

, . . . , t

)

1 − P



= β



j=1

其中：



k=1

˜w

β 为待求参数。

1.1.7 logistic 回归的另一种形式

在前面的 logistics 回归中，我们将因变量 y 的标签设置为 0 和 1，即 y

∈ {0, 1}，y ∈ B

，

x ∈ R

m×n

，即共有 n 个变量，m 个样本，w ∈ R

(不含常数项)，ϕ = ( ϕ

, ϕ

, . . . , ϕ

)。

现在，我们将 y 的标签改为 {−1, 1}，其余不变，这种标签设置和 SVM 中的相同。我们仍

然求 y

= 1 的概率，y

取值的概率可以用下式表示

P (y

|x; w) =

1 + e

−y

ϕ(x

))

我们对上面的概率进行简单的说明：当 w

ϕ(x) 很小时，¬y

= 1 ，则其概率图像如图 (1.3)

图 1.3: 第二种 logis 回归概率示意图 1

y

= −1，则其概率图像如图 (1.4)

http://www.ma-xy.com 12 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.1 机器学习基本模型

图 1.4: 第二种 logis 回归概率示意图 2

并且有

P (y

= 1 |x; w) + P (y

= −1|x; w) = 1

注：因为

1 + e

−x

1 + e

= 1

所以，上面的概率 P (y

|x; w) 是合理的。写出样本的似然函数 L(w)，有

L(w) =



i=1

P (y

|·) =



i=1

1 + e

−y

ϕ(x

))

对上式取对数，然后极大化 log L(w)

max

log L(w) = −



i=1

log



1 + e

−y

ϕ(x

))



上面的问题是通常的最优化问题。我们在上面的优化目标中加入 L

正则化项

||w||

，有

min



i=1

log



1 + e

−y

ϕ(x

))



||w||

其中：log ≡ ln，C 为权重，可取

。上面的这个优化目标就是许多优化文章中使用的测试函数，

许多 SGD 以及 SGD 改进算法都是以上面的函数作为目标。另外，scikit - learn 也使用上述目

标。注：关于贝叶斯 logistics 回归和变分 logistics 回归可以参考 PRML 相应的章节。

1.1.8 MATLAB 的 logistic 回归示例

在回归模型 ˆy = w

x 中, At each set of values for the predictors, the response has a normal

distribution with mean ˆy. ，在二分类 logistic 回归 ln

1−P

= w

ϕ(x) 中，ln

1−P

是 y = 1 的概率

的相应的变化。更一般的，At each set of values for the predictors, the response has a distribution

that can be normal, binomial, Poisson, gamma, or inverse Gaussian, with parameters including

a mean ˆy，给 ˆy 设置一个链接函数 f，于是得到更为一般的回归模型

f(ˆy) = w

http://www.ma-xy.com 13 http://www.ma-xy.com

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

因变量 y 可能的分布有许多种，如果 y 取值为实数，可以假定其分布为正态分布，如果 y

取值为 0, 1, 2, ... 非负整数，可以假定其分布为 poisson 分布，如果 y 取值为正数，可以假定其分

布为逆高斯分布或者 gamma 分布，如果 y 取值为 0, 1，或者 0, 1, 2, 3(即分类型数据)，则可以假

定其分布为二项分布。对于不同的分布，我们可以设置不同的 link(链接) 函数 f ，即便对于同一

种分布，也可以设置不同的链接函数。MATLAB 中支持的因变量分布类型如表 (1.1) 所示

表 1.1: 因变量类型及假设分布

Response(y) Data Type Suggested Model Distribution Type

Any real number ’normal’

Any positive number ’gamma’ or ’inverse gaussian’

Any nonnegative integer ’poisson’

Integer from 0 to n ’binomial’

对不同的假设分布类型，可选用的 link 函数如表 (1.2) 所示

表

1.2:

假设分布及链接函数

Value Description

’comploglog’ log(–log((1–µ))) = Xb

’identity’, default for the distribution ’normal’ µ = Xb

’log’, default for the distribution ’poisson’ log(µ) = Xb

’logit’, default for the distribution ’binomial’ log(µ/(1–µ)) = Xb

’loglog’ log(–log(µ)) = Xb

’probit’ Φ

–1

(µ) = Xb，Φ 是正态分布函数

’reciprocal’, default for the distribution ’gamma’ µ

–1

= Xb

p (a number), default for the distribution ’inverse gaus-

sian’ (with p = –2)

= Xb

MATLAB 示例如下

1 x = [2100 2300 2500 2700 2900 . . .

2 3100 3300 3500 3700 3900 4100 4 3 00 ] ’ ;

3 n = [ 4 8 42 31 34 31 21 23 23 21 16 17 2 1 ] ’ ;

4 y = [ 1 2 0 3 8 8 14 17 19 15 17 2 1 ] ’ ;

5 % 构建 pro b i t 回归

6 g = f i t gl m (x , [ y n ] , . . .

7 ’ l in ea r ’ , ’ d is tr ’ , ’ binomial ’ , . . .

8 ’ l i nk ’ , ’ pr o b it ’ )

9 % 自定义 p r o bit 回归的链接 l i nk 函数 s

10 s = {@norminv ,@(x ) 1. / normpdf (norminv (x) ) , @normcdf };

11 g = f i t gl m (x , [ y n ] , . . .

12 ’ l in ea r ’ , ’ d is tr ’ , ’ binomial ’ , ’ l i nk ’ , s )

http://www.ma-xy.com 14 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.1 机器学习基本模型

1.1.9 多分类 softmax 回归

softmax 模型建立

前面，我们讨论了二分类问题 {0, 1} 或者 {−1, 1} 的 logistics 回归，下面，来看一下多分类

问题。假设因变量 y 共 k 类，标签值为 {1, 2, . . . , k}，并且仍然设有 n 个自变量 x

，m 个样本。

如果我们对此多分类问题采用 logistics 回归，则可以有如下两种做法：

(1) 对 y 中的每个类做二分类 logistics 回归，例如：对于第 c 类而言，把 y = c 设置为一类，y = c

设置为另一类。

P (y

= 1)

1 − P (y

= 1)

= w

ϕ(x)

. . .

P (y

= k)

1 − P (y

= k)

= w

ϕ(x)

(2) 我们以第 c 类为例，把 y ⩽ c 设置为一类，y > c 设置为另一类，然后建立二分类 logistics 回

归

P (y

⩽ c)

1 − P (y

⩽ c)

= w

ϕ(x)

上面两种方法都要建立 k 个二分类 logistics 回归。下面，我们来介绍另一种基于 logistics 的

多分类回归 - softmax 回归。我们要求 y

= j 的概率 P (y

= j|x

)。由于



j=1

P (y

= j) = 1，那

么 P (y

= j) 等价于

P (y

, w) = P

I(y

=1)

I(y

=2)

···P

I(y

=k)

(1.3)

其中：I(y

= j) 为特征函数，当 y

= j 时，I(y

= j) = 1，否则为 0；P

为 P (y

= k|x

, w)，且

注意 a

= 1 ，0

= 1 。

由于

I(y

= k) = 1 −

k−1



j=1

I(y

= j)

http://www.ma-xy.com 15 http://www.ma-xy.com

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

所以 y

的概率分布 (1.3) 可以写为

P (y

, w) = P

I(y

=1)

I(y

=2)

···P

I(y

=k)

(1.4)

= P

I(y

=1)

I(y

=2)

···P

1−

k−1

∑

j=1

I(y

=j)

a=e

log

======= exp





log

I(y

=1)

+ log

I(y

=2)

+ ··· + log

1−

k−1

∑

j=1

I(y

=j)





= e

I(y

=1) log P

+I(y

=2) log P

+···+

(

1−

k−1

∑

j=1

I(y

=j)

)

log P

最后一项分散

========= e

I(y

=1) log(P

)+I(y

=2) log(P

)+···+I(y

=k−1) log(P

k−1

)+log P

= e

∑

j=1

I(y

=j) log P (P

)+log P

= e

T (y

)−a(η)

其中：η

= log P

，η = (η

, ··· , η

)

，T (y

) = [ I(y

= 1) , ··· , I(y

= k)]

，a(η) = log P

。

由于

= log P

⇒ P

= P

且



= 1 ，可以得到



= 1

⇒ P



= 1

⇒ P



于是，得到

= P



现在，我们可以假设我们的模型是



即样本 y

分为 j 类的概率

= P (y

= j|x

, w) =



也就是说，我们在判断每一类 j 时，都有一个权重 w

与之对应，所以对某个样本 x

, y

而言，其

为 k 中各类的概率如表 (1.3) 所示

http://www.ma-xy.com 16 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.1 机器学习基本模型

表 1.3: 样本 i 的类别概率

类别 1 2 . . . k

(

, y

)

· ·

∑

将 softmax 模型写为矢量形式 (无常数项)，有

P = f (ϕ(x)w)

矢量形式对二分类而言，ϕ(x) ∈ R

m×n

，w ∈ R

n×1

，y ∈ R

m×1

，P ∈ R

m×1

。对多分类而言，

ϕ(x) ∈ R

m×n

，w ∈ R

n×k

，P ∈ R

m×k

。

至此，softmax 多分类模型已经建立好了，下面的工作就是求样本的似然函数以及对数似然

函数，然后求 w ∈ R

n×k

使其似然函数最大。

softmax 模型的求解

根据上面 y

的概率分布 (1.3) 和 (1.4) 我们可以写出样本 y

(i = 1, 2, . . . , m) 的联合概率分

布 (似然函数)

L(w) =



i=1

P (y

)



i=1

I(y

=1)

I(y

=2)

···P

I(y

=k)



i=1



j=1







I(y

=j)

对上式取对数，有

ln L(w) =



i=1



j=1







I(y

=j)



i=1



j=1



I(y

= j) log







i=1



j=1



I(y

= j) log P (y

= j|x

, w

)



(1.5)

上式 (1.5) 可以看成是 logistics 回归的扩展，因为 logistics 回归的目标函数可以写为

ln L(w) =



i=1



j=0



I(y

= j) log P (y

= j|x

, w)



http://www.ma-xy.com 17 http://www.ma-xy.com

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

将对数似然函数 (1.5) 求导，有

∇

ln L(w) =

∂ ln L

∂w



i=1









I(y

= j) · e

· x



− e

· e

·x















i=1



I(y

= j) −





· x





i=1



I(y

= j) − P (y

= j|x

, w

) · x



将极大似然函数估计的目标 max ln L(w) 变为极小化问题 min J(w) = −ln L(w)，并用梯度下降、

L-BFGS 等算法进行求解。

:= w

− α∇

ln L(w) j = 1, 2, . . . , k

softmax 回归求解的特点

softmax 回归有一个特点：它有一个冗余的参数集，即 w ∈ Θ，Θ 是一个过大的参数集。我

们从向量 w

出发，如果 w

减去一个 ψ 变为 w

− ψ，则 softmax 模型变为

P (y

= j|x

, w

− ψ) =

−ψ)



−ψ)

−ψ



−ψ



=: P (y

= j|x

, w

)

即 P (y

= j|x

, w

−ψ) = P (y

= j|x

, w

)。换句话说，从 w

中减去 ψ 完全不影响预测结果，这

表明 softmax 回归的参数空间 Θ 是冗余的。进一步，如果 w

∗

是目标函数 −ln L(w) 的极小点，

则 w

∗

− ψ 同样是目标函数的极小点，并且 ψ 是任意向量，因此，使 −ln L(w) 极小化的解不是

唯一的。幸运的是，由于 J(w) = −ln L(w) 是一个凸函数，所以梯度下降算法仍然可用，不会遇

到局部解。但是牛顿法以及基于牛顿法的算法则没那么幸运，其 Hesse 矩阵是奇异的，这导致牛

顿法不能应用，因此需要用改进的 L-BFGS 等方法。

正则化 softmax

我们在目标 J(w) 中引入正则项



i=1



j=1

(w ∈ R

n×k

无常数项)，则我们的目标函数变为

J(w) = −C





i=1



j=1



I(y

= j) log





||w||

http://www.ma-xy.com 18 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.1 机器学习基本模型

其中：||w||



i=1



j=1

，λ > 0 为罚权重。有了 λ 项之后，J(w) 就变为一个严格的凸函数，此

时，就有一个唯一解 w

∗

，并且 Hesse 矩阵变为可逆，梯度下降法、牛顿法以及 L-BFGS 等算法

都可以使用了。目标函数 J(w) 的导数为

∇

J(w) = −C



i=1



I(y

= j) − P (y

= j|x

, w

) · x



+ λw

1.1.10 人工神经网络 ANN

神经网络的导出

我们从前面的线性回归模型开始：对 y 的估计为

ˆy = w

ϕ(x)

在 w 给定之后，对每个样本 x

, y

，都能给出其 y

的估计 ˆy

。现在，我们来把它改进，像前面

的 softmax 那样，可以给出 l 个权重向量 w

(j = 1, 2, . . . , l)，每一个权重向量 w

都会有一个估

计 ˆy

= w

ϕ(x)，然后把 l 个线性模型进行组合。或者，从组合预测的思想来看，通过一个模型

ˆy = w

ϕ(x) 可以给出 y 的一个估计，那么不妨多造几个模型来估计 y，然后将这些估计值加权

组合，例如

ˆy

= w

ϕ(x)

ˆy

= w

ϕ(x)

. . .

ˆy

= w

ϕ(x)

然后，做最终的估计

ˆy =



j=1

ˆy

(1.6)

其中：β = (β

, β

, . . . , β

)

为组合权重。当然，还可以将每个样本赋予不同的组合权重，即 β 是

矩阵的形式。将上式 (1.6) 用图形表示，如图 (1.5) 所示

图

1.5:

线性回归组合模型的网络示意图

http://www.ma-xy.com 19 http://www.ma-xy.com

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

对所有样本 x 而言，其模型可以写为

ˆy = f

(x)

= f

ϕ(x))



j=1

ϕ(x)β

上述模型即为一个简单的 3 层神经网络 ANN。其中：w 不再是一个单一的权重向量，而是由 l

个向量组成的矩阵，w ∈ R

n×l

，w

∈ R

，这里共有 n 个变量，m 个样本，l 个线性模型，然后

将它们组合。并且，由于模型结构图 (1.5) 很像人脑神经元连接形成的网络，所以这种模型被称

为神经网络模型。

神经网络的讨论

上面，我们由线性回归组合模型引出了神经网络，下面，来研究一下神经网络 ANN。

(1) 激活函数。在上面的网络中，我们只是确定了各个神经元的连接权重 w

, β

，并没有讨论其

它内容。其实，我们可以给它增加映射函数，比如我们将 x 映射为 ϕ(x)，再比如 logistics 回归中

P = f

(x)) = f

ϕ(x))

logistics 就是在 w

ϕ(x) 上又增加了一个映射函数 f

1+e

−x

。所以，我们可以在各神经元上增

加映射函数，比如：x 上增加 ϕ(x)，中间的 ˆy 增加 f

，后面的 y 再增加 f

，于是有





ϕ(x)





→ ˆy

(2) 阈值。其实，神经网络已经能够将 x 映射到高维，所以不妨去掉 ϕ(x)，变为 w

x。像常见的

线性回归 y = w

x + b 那样，应该有一个常数项 b ≡ w

。在神经网络当中，我们将 b 视为阈值

θ，如图 (1.6) 所示的阈值结构

图 1.6: 神经网络阈值结构

(3) 多维输出问题。前面我们一直研究 y

∈ R 的问题，现在，我们来研究 x

, y

∈ R

× R

的问

题，即 n 个自变量 x 和 p 个因变量 y 之间的函数关系式。一般模型很难处理这种多维输出的问

题，但对于神经网络而言，这种问题则相对简单，如图 (1.7) 所示

http://www.ma-xy.com 20 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.1 机器学习基本模型

图 1.7: 多输出问题的神经网络结构示意图

像上图 (1.7) 的网络结构，我们就处理了 f : R

→ R

的多输出问题。并且，由于多分

类问题是一类特别的多输出问题，因此，神经网络处理多分类问题也是容易的，我们只需要将

(j = 1, 2, . . . , p) 设置为 0 和 1 即可，当样本为第 j 类时，y

= 1 ，y

= 0( i = j)，这里的 p 即

为多分类的种类数。

(4) 多层神经网络。对于前面的神经网络，它们是多个线性回归模型的组合，既然如此，我们就

可以组合之后再组合。不断组合下去可以形成很深的神经网络结构，如图 (1.8)

所示

图 1.8: 多层神经网络结构示意图

理论上，网络的层数可以无穷多，从而神经网络可以拟合任意任意的函数，但是，这种深层

网络在实际应用时却有许多问题，比如：网络层数过多导致的过拟合现象；网络层数过多，参数

w, θ 的求解出现问题等等。由于参数 w, θ 的求解受限制，所以在神经网络发展初期其网络结构

都非常浅 (一般只有 3 到 4 层)。2006 年起，由 Hinton 设计的 DBM 深层网络引发了深度网络

的革命，深度学习现如今发展的如火如荼，关于深度学习问题，我们会在后面章节进行讨论。

(5) 网络搭建的思考。在建立一个神经网络模型时，我们应该做如下思考：

¬从网络整体来看

1. 网络的输入 X 和输出 Y 是什么？

2. 网络的层数是多少？

3. 各层的神经元数目是多少？

4. 映射函数/激活函数 f

, f

是什么？

5. 网络的连接形式是什么？上面给出的网络连接形式都是前一层神经元与后一层某个神经元

的全链接，当然，我们可以不连接某些神经元，例如图 (1.9) 所示

http://www.ma-xy.com 21 http://www.ma-xy.com

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

图 1.9: 非全连接网络结构示意图

6. 网络的训练方式，即网络参数如何求解？这个问题是重点中的重点。

从单一神经元来看，单一神经元结构示意图 (1.10) 所示

图 1.10: 单一神经元结构示意图

1. 该神经元与哪些神经元连接？

2. 神经元的输入是什么？

3. 神经元的输出是什么？

一些常用的激活函数

下面，我们来介绍一些常用的激活函数/传递函数 f。像前面 logistics 回归中的 sigmoid 函

数那样，我们在神经网络的各层中引入激活函数，常用的激活函数有 (以 f 为函数，x 为输入。

注意这里的 x 与前面的意义不同，仅是一个符号):

(1)0 - 1 函数/硬阈值函数

f(x) =







0 x ⩽ θ

1 x > θ

其中：θ 为阈值。MATLAB 命令为 hardlim。

(2) 线性函数

f(x) = ax + b

其中：a, b 是外来参数。MATLAB 命令为 purelin。

(3) 阈值线性函数

f(x) =











r x > θ

ax |x| ⩽ θ

− r x < −θ

http://www.ma-xy.com 22 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.1 机器学习基本模型

其中：θ 为阈值，a 为外来参数。

(4)sigmoid 函数

f(x) =

1 + e

−x

MATLAB 命令为 logsig。

(5)tanh 函数

f(x) =

1 + e

−2x

+ 1 =

− e

−x

+ e

−x

tanh 函数和 sigmoid 很想，并且 tanh 的均值为 0，因此，在实际应用中 tanh 的应用要多一些。

MATLAB 命令为 tansig。

(6)softplus

f(x) = log

(1 + e

)

且

′

(x) =

1 + e

−x

= sigmoid(x)

(7)ReLu。近年来，ReLu 变得越来越受欢迎，许多机器学习工具，如：Theano、TensorFlow、

MXNet 以及 DeeplearnToolbox 等几乎都使用 Relu 及其变形作为传递函数。Relu 是线性传递函

数 f = ax + b 的修正，是 Rectied Linear unit 的缩写，其函数形式为

f(x) = max{0, x}

当 x 取值比 0 小时，f 的输入即为 0。2005.Krizhershy 等3发现：使用 Relu 得到的 SGD 的收敛

速度比 sigmoid 或者 tanh 快很多，这种现象很有可能是因为 Relu 是线性的。在实际的操作中，

如果设置了一个很大的学习率 η，那么，我们网络中的许多神经元 (40%) 会“死亡”。下面，我

们来介绍一些 Relu 的改进。

(8)Leaky-Relu。Leaky-Relu 就是用来解决 Relu 死机的问题，其函数形式为

f(x) =







x x ⩾ 0

αx x < 0

其中：α 是一个很小的常数，一般取为 0.001。这样即修正了数据分布，有保留了负轴上的一些

值。关于 Leaky-Relu 的效果，有些实验证明它是成功的，当然也有一些失败了。一般的 α 是人

为实现赋值的，如果我们不把 α 视为人为定量，而将其视为网络参数，和 w, θ 等一起求解亦是

可行的，并且 Kaiming He1指出，这种 α 不仅可以训练，而且效果更好。

(9) 随机 Relu。随机 Relu 是 Leaky-Relu 的随机版本，它将 α 设置为随机变量，函数形式为

f(x) =







x x ⩾ 0

αx x < 0

http://www.ma-xy.com 23 http://www.ma-xy.com

http://www.ma-xy.com

1.1 机器学习基本模型第一章神经网络

其中：α ∼ U(l, µ)。在测试阶段，把训练过程中所有的 α 求平均值，作为测试 α。

(10)Max out。Goodfellow 于 2013 年提出 Max out Network。maxout 的函数形式就像它的名字

那样

f(x) = max

这里顺便提一下 Maxout Network，其网络的主要结构为

(x) = max

j∈[1,k]

其中：

+ θ

，w ∈ R

d×m×k

。这里 w 是 3 维的，d 表示输入神经元个数，m 表示隐

含层神经元个数，k 表示每个隐含层节点对应了 k 个“隐隐含层”节点，这 k 个“隐隐含层”节

点都是线性输出的，而 maxout 就是取这 k 个中的最大值，其结构示意图如图 (1.11) 所示

图 1.11: maxout 网络结构示意图

常见的传递函数的图像如图 (1.12)

所示

图 1.12: 传递函数图像

此图来自维基百科

http://www.ma-xy.com 24 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.2 前向型神经网络

关于网络的学习规则，不同的网络结构有不同的学习规则，而不同的学习规则又形成了不同

的网络，因此，我们将在具体的神经网络模型中讨论相应的学习规则。根据网络结构的不同，神

经网络可以分为 3 大网络结构：前向型神经网络、竞争型神经网络和反馈型神经网络。

1.2 前向型神经网络

1.2.1 感知器 perception

感知器结构

美国学者 Frank Rosenblatt 于 1958 年提出单层感知器，其网络结构如图 (1.13) 所示

图 1.13: 单层感知器网络结构图

其中：x ∈ R

m×n

，传递函数 f = handlim，w ∈ R

，y ∈ {0, 1}

，θ ∈ R。我们将单层感知

器模型写为

ˆy = f (w

x − θ)

可以发现，单层感知器的功能就是对 x 进行正确的分类，且分类为 {0, 1} 二分类，因为最终 ˆy 的

输出值只能是 0 或者 1。当然，我们可以用单层感知器模型来处理多分类 (k 分类) 问题，其结构

如图 (1.14) 所示

图 1.14: 单层感知器多分类网络结构图

其模型为

ˆy

= f(s

) = f





i=1

− θ



= f(w

x − θ

)

http://www.ma-xy.com 25 http://www.ma-xy.com

http://www.ma-xy.com

1.2 前向型神经网络第一章神经网络

感知器学习算法

设共有 n 个变量 x

和 m 个样本 (x

, y

) ∈ R

× R

，y 为期望输出，ˆy 为实际输出。

Step1. 初始化。输出层神经元个数 k，初始连接权重 w(0) ∈ R

n×k

，初始阈值 θ，迭代次数 t := 0。

Step2. 对样本 x

, y

, i = 1, 2, . . . , m，计算该样本 x

, y

的输出。

ˆy

= f(w

− θ

)

Step3. 计算实际输出 ˆy

与期望输出 y

的误差。

= ˆy

− y

∈ R

Step4. 调整权重及阈值。

:= w

+ ∆w

= w

+ αx

θ := θ + βe

其中：α, β 为学习率，可变化。

Step5. 所有样本完成一次更新。

Step6. 终止条件。不终止，则置 t := t + 1，返回 Step2。

注：1. 终止条件可以设置容错误差 ε；

x ∈ R

m×n

× w ∈ R

n×k

− θ ∈ R

m×1

= ˆy ∈ {0, 1}

m×k

ˆy ∈ {0, 1}

m×k

− y ∈ R

m×k

= e ∈ R

m×k

3. 上述算法的目标并不是离差平方和



最小，而仅仅是将 e 传递给 w, θ，后面，我们会介绍

离差平方和最小方法。

4. 单层感知器不能解决亦或问题 XOR，XOR 问题的示例如图 (1.15) 所示

图 1.15: XOR 问题示意图

MATLAB 示例如下

1 %% 单层感知器 perc e pti o n

2 x = [ 0 0 1 1 ; 0 1 0 1 ] ;

3 y = [ 0 1 1 1 ] ;

4 net = p e rcep t ion ;

http://www.ma-xy.com 26 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.2 前向型神经网络

5 net = t r ai n ( net , x , y) ;

6 view ( net ) ;

7 y_hat = net (x)

上面的注 4 中提到单层感知器不具有解决非线性分类问题 XOR 的能力，为此，我们可以设

计多层感知器，即综合多个线性来解决非线性问题。例如：有两个单层感知器，则可以形成两条

如图 (1.16) 中的分割线，我们要判断各点所属的类，只要综合这两条分类线的结果即可。

图 1.16: 多层感知器解决 XOR 示意图

在介绍 BP 神经网络和反向传播算法之前，我们先来讨论一下“离差平方和最小”的目标。

就像上面注 2 中提到的那样，对于多输出 y，误差 e 是一个 i 行 k 列的矩阵，每个样本 i 在第 j

类处都会有个误差 e

。如果是二分类问题和回归问题，离差平方和可以写为

J(w, θ) =



i=1

(ˆy

− y

)

= ||ˆy − y||

但是对于矩阵而言，误差

的离差平方和会有三种情况：

(1) 我们考虑将 m 个样本的离差平方和再求和，有

(w, θ) =



i=1

||ˆy

− y

(2) 考虑把 k 个输出神经元的误差求和，即先求单一的输出神经元的离差平方，然后再相加

(w, θ) =



j=1

||ˆy

− y

(3) 当然，上面两种的计算结果是一样的，为

(w, θ) =



i=1



j=1

(ˆy

− y

)

很奇怪，为什么 (1)(2)(3) 相同还要分开写？虽然 3 者最终结果是一样的，但是中间步骤是

不一样的，如果不看 (1)(2) 公式中的求和，则有 ||ˆy

−y

和 ||ˆy

−y

，而我们后面恰好就要

着重讨论分开的形式。我们以 (2) 为目标，用线性神经网络来作为示例。

1.2.2 线性神经网络

由于感知器的输出 ˆy 为 0 和 1，而 y 也为 0 和 1，从而导致了误差 e 的元素也只有 0 和

1。我们要想用“离差平方和最小”方法，则需要将 handlim 去掉，或者将其换为可导的传递函

http://www.ma-xy.com 27 http://www.ma-xy.com

http://www.ma-xy.com

1.2 前向型神经网络第一章神经网络

数，因为 handlim 对 w 求导为 0。如果我们不考虑 handlim 函数 f ，直接将 w

x 视为 ˆy，则

e = ˆy − y 的元素为实数。

记第 j 个输出神经元的误差为

= y

− ˆy

= y

−



x − θ



(1.7)

则第 t 次运行的均方误差为

(w) =

||e

(1.8)

式 (1.7) 和式 (1.8) 对 w 和 θ 求导，有

∂E

(w)

∂w

= w

∂e

∂w

= −xe

(w)

∂θ

= e

其中：x 为整个样本数据集，这一点一定要注意。由于

E(w) =



j=1

(w)

所以

∂E

∂w



j=1

∂E

(w)

∂w

= −xe

由此，得到权重 w 的更新公式

:= w

− α

∂E

∂w

= w

+ αxe

1.2.3 BP 神经网络

全 BP 和 BP 算法

考虑如下多层前向神经网络

图 1.17: 多层前向神经网络

http://www.ma-xy.com 28 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.2 前向型神经网络

上面这个多层神经网络就是我们常见的神经网络。我们设定共有 n 个输入变量 x

(i =

1, 2, . . . , n)，所以输入层 (第一层) 共有 n 个神经元，设置隐含层 (第二层) 有 K 个神经元，

则第一层和第二层的连接权重为 W = (w

)

n×K

，设置输出层 (第三层) 有 J 个神经元，则第二

层与第三层的连接权重 V = (v

)

K×J

，设置隐含层的阈值为 b

，传递函数为 f

(·)，输出层的阈

值为 b

，传递函数为 f

。现在共有 m 个样本 (x

, y

)

i=1

，我们要求 W, V, b

, b

。一个可行的目标

是：像线性神经网络那样，使用 J 个输出神经元总误差平方和最小。设第 j 个输出神经元的误

差为

= y

− ˆy

= y

− f



x + b

) · V

+ b



其中：V

:,j

表示矩阵 V 的第 j 列，下面简写为 v

。则第 j 个神经元的误差平方为 E

。

由此，J 个输出神经元的总误差平方为

E =



我们要求 W, V, b

, b

使 E 最小，则 E 对 W, V, b

, b

求导，并令导数为 0 即可。令 θ = {W, V, b

, b

}，

有

∂E

∂θ



∂E

∂θ

由此，我们只要求出第 j 个神经元的 E

关于 θ 的导数即可。一定要注意的是，第 j 个神经元的

输出为 ˆy

= f



x + b

) · V

+ b



，于是有

∂E

∂v

= e

∂e

∂v

= e

′

x + b

) (1.9)

也就是说，第 j 个输出神经元的误差 e

传递给了权重矩阵 V 的第 j 列。并且值得一提的是，求

导过程要求 f

可导。上式的 x 是所有样本，当然，我们还可以详细的写出关于 v

的导数，亦

可以粗略写出关于矩阵 V 的导数。

∂E

= e

′

∂E

∂W

∂E

∂e

∂W

= e

′

∂E

∂b

= e

′

(1.10)

上面给出的是参数的部分梯度 (所有样本 x 的第 j 个输出神经元误差的导数方向)，即 ∇E

http://www.ma-xy.com 29 http://www.ma-xy.com

http://www.ma-xy.com

1.2 前向型神经网络第一章神经网络

的一部分 ∇E

。下面，我们给出总离差平方 E 下的导数，有

∂E

∂v



∂E

∂v

= e

′

x + b

)

∂E

∂b



∂E

∂b



′

∂E

∂W



∂E

∂W



∂E

∂e

∂W



′

∂E

∂b



∂E

∂b



′

这样，我们就得到了所有样本 x 的所有输出神经元误差的导数方向，我们用梯度下降来更新

参数 W, V, b

, b

，使总离差平方和最小，有更新公式

:= v

+ ∆v

= v

− α

∂E

∂v

W := W + ∆W = W − α

∂E

∂W

:= b

− β

∂E

∂b

:= b

− β

∂E

∂b

其中：α, β 为学习率，可以自适应。总的来说，我们要更新某个参数 θ，除了要用到所有样本 x

之外，还要把所有输出神经元的梯度累加才可以。

上面的这种做法是：E =



(j = 1, 2, . . . , J)，这里的 E

是第 j 个输出神经元的离差平

方和。我们还可以用 E =



(i = 1, 2, . . . , m)，这里的 E

是第 i 个样本的离差平方和。一个

是纵向一个是横向，不过，总的来说，二者都要求在总离差梯度 ∇

E 下更新参数 θ，我们称这

种方法为全导向传播算法 (全 BP)。后面介绍的 BP 算法是在 ∇

或者 ∇

下更新参数的。

此外，还应该注意的是，上面的全 BP(或者 BP) 算法是使用所有样本 x 来计算梯度的，其

梯度方向是全局梯度方向，但是就像我们在回归模型中介绍 SGD(以及 SGD 改进等) 算法时所

说的那样，不仅可以用全部样本 x 来计算梯度方向，还可以用部分样本 (批量梯度 MBGD) 以及

单一样本的随机梯度 SGD 来计算梯度方向。下面，给出一次一个样本的随机梯度 SGD 的 BP

算法的步骤：

Step1. 初始化。

网路结构以及网络参数设置 W, V, b

, b

, f

，学习率 α, β，容许误差 ε，迭代设置：t := 0, T

max

。

Step2. 在 t 时刻，遍历所有样本 x

, i = 1 , 2, . . . , m，执行 Step3 - Step6。

http://www.ma-xy.com 30 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.2 前向型神经网络

Step3. 对样本 x

，按网络结构进行前向传播

+ b

)

+ b

)

+ b

) + b

+ b

) + b

) = ˆy

Step4. 计算样本 x

, y

的误差 e

= ˆy

− y

∈ R

||e

是一个向量，和 y

同维度，e

∈ R 是第 j 个输出神经元的误差。如果是批量样本，e

是一个

向量。

Step5. 误差反向传播。(关于导数的计算，仿照前面全 BP 的计算方法 (1.9) 和 (1.10)，本质是

复合函数的链式求导法则)

∂E

∂V

∂E

∂e

∂V

= e

′

+ b

)

∂E

∂W

∂E

∂e

∂W

= e

′

∂E

∂b

∂E

∂e

∂b

= e

′

∂E

∂b

∂E

∂e

∂b

= e

′

Step6. 按梯度方向更新 W, V, b

, b

，使 E

最小

V := V + ∆V = V − α

∂E

∂V

W := W + ∆W = W − α

∂E

∂W

:= b

− β

∂E

∂b

:= b

− β

∂E

∂b

Step7. 终止条件：T

max

或者 ε。达到最大迭代次数或者误差 e < ε 则终止；否则，置 t := t + 1，

返回 Step2。

上述 BP 算法是一般形式的 BP 算法，每次输入一个样本 x

, y

，然后根据非全局误差 e

即

来计算梯度，更新权重等参数。由于每次使用一个样本来计算梯度，这样的梯度方向并不是

全局下降方向，也就是说，此次的权重更新只能使样本 x

, y

的误差 e

减小，而其它样本则未可

http://www.ma-xy.com 31 http://www.ma-xy.com

http://www.ma-xy.com

1.2 前向型神经网络第一章神经网络

知。当然我们可以选择一次输入一个样本 (SGD)，一次输入部分样本 (MBGD) 以及一次输入整

个样本 (GD)，并且样本可以按照顺序输入，也可以随机抽取输入。一般而言，我们经常使用批

量梯度下降算法，其梯度方向是使该批样本的误差下降的方向，更新后的参数并不一定能使所有

样本的误差下降。

BP 算法的问题及改进措施

BP 算法存在以下几个主要的问题：

1. 收敛速度慢。由于有两层 for 循环，所以其迭代速度是可想而知的，并且，它对于一个简单

的问题，收敛速度仍然很慢。

2. 非全局极小点。由于不是全 BP 算法，并且每次使用一个样本来计算梯度，而每个样本的

梯度方向不一样，会导致该样本的梯度与上一个样本梯度发生冲突，甚至梯度下降方向完

全相反，从而遗忘 (抵消) 上一个样本的梯度方向 (特征)。例如可能出现如图 (1.18) 的情况

图 1.18: BP 算法的锯齿梯度下降示意图

3. 每个样本带来的梯度大小不等。先来看单一样本 x

, y

的梯度

∂E

∂W

∂E

∂e

∂W

= e

′

从上面的梯度计算公式中可以看出：W 的梯度大小和样本 x

的大小有关，如果 x

很大，

则会导致其梯度方向很大。这是非常不好的，如果一个极端的 (坏的) 样本 x

带来了很大

的梯度，那么，其余的样本基本上上就不起作用了，这样收敛的极小点是没有意义的。

为了克服 BP 算法的缺点，我们介绍 BP 算法的一些改进措施：

1. 问题 1 中说 BP 算法的收敛速度慢，我们并不太可能改进 BP 的框架，那么我们就去改进

它的学习率 α, β，给出以下 3 种可行的方案：¬让 α, β 在 ∆W 前后相差不大 (即前后梯度

方向相似的) 时较大；让 α, β 在平均梯度方向上较大；®当前后两次的梯度方向符号一致

时，增大 α, β。

2. 问题 2 中说 BP 算法会遗忘上一个样本的梯度，那我们此次的梯度方向就不仅用此次样本

的误差下降方向，再加上上一次的量，有

∆W := −α

∂E

∂W

+ η∆W

也就是说权重更新量 ∆W 不仅与梯度

∂E

∂w

有关，而且还与其上一个样本的梯度方向有关，

这种方法被称为动量梯度下降方法。

http://www.ma-xy.com 32 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.2 前向型神经网络

3. 问题 3 中说 BP 算法的梯度大小受样本大小的影响，为此，我们在将样本输入到网络之前，

先对其进行归一化处理。归一化处理的本质工作是将样本值压缩，避免样本有太大的差异。

归一化有许多方法，这里我们不详细介绍。MATLAB 中使用 mapminmax 来实现如下归一

化

x =

x − x

min

max

− x

min

并通过参数’apply’ 和’reverse’ 来分别指定归一化和反归一化操作，例如：x=mapminmax(’apply’,x)，

就是对 x 进行归一化操作。

上面，我们用 SGD 等随机优化算法来求解了 BP 神经网络。可以看出，BP 神经网络最终

仍然是一个最优化问题，并且是一个最小二乘优化问题，我们仍然可以用一些一般性的算法，比

如牛顿法、F-BFGS 算法以及 L-M 算法等。下面，我们简单的介绍一些参数更新方案：

(1) GD

W (t + 1) = W (t) − α

∂E(t)

∂W (t)

(2) 动量因子 momentum

∆W (t + 1) = α(1 − η)

∂E(t)

∂W (t)

+ η∆W (t)

(

+ 1) =

(

) + ∆

(

+ 1)

(3) 变学习率算法

α(t + 1) =







inc

α(t) E(t + 1) < E(t)

doc

α(t) E(t + 1) > E(t)

η(t + 1) =











1.05η(t) E(t + 1) < E(t)

0.7η(t) E(t + 1) > 1.04E(t)

η(t)

(4) RPROP

∆W (t + 1) = ∆W (t + 1) · sign[g(t)] =











∆W (t)k

inc

· sign[g(t)] 连续两次梯度方向相同

∆W (t)k

doc

· sign[g(t)] 连续两次梯度方向相反

∆W (t)

其中：g(t) =

∂E(t)

∂W (t)

。

(5) CG(Conguga gradient)

p(0) = −q(0)

W (t + 1) = W (t) + αp(t)

p(t) = −g(t) + β(t)p(t − 1)

http://www.ma-xy.com 33 http://www.ma-xy.com

http://www.ma-xy.com

1.2 前向型神经网络第一章神经网络

对于 β(t)，¬Fletcher-Reeres(CGF) 的计算方法是

β(t) =

(t)g(t)

(t − 1)g(t − 1)

Polck - Ribiere(CGP) 的计算方法是

β(t) =

∆g

(t − 1)g(t)

(t − 1)g(t − 1)

(6) Newton

W (t + 1) = W (t) − H

−1

(t)g(t)

其中：H 为 Hesse 矩阵。海赛矩阵不易求解，转而有 OSS 和 Quasi-Newton 等算法。

(7) LM(levenberg-marquardt)

由于误差 E 具有平方和误差的形式，为最小二乘优化问题，我们有

H ≈ J

g = J

其中：J 是 E 对权重 W 一阶导数，雅可比矩阵。有权重更新公式

W (t + 1) = W (t) − J

J + µJJ

−1

当 µ = 0 时为牛顿法。

表 1.4: MATLAB 中的 BP 算法命令表

简称函数命令描述

LM trainlm 基于 Levenberg-Maruardt 算法的 BP 算法

BFG trainbfg 基于 BFGS Quasi-Newton 算法的 BP 算法

GDX traingdx 自适应学习率以及动量梯度下降 BP 算法

GDA traingda 自适应学习率的梯度下降 BP 算法

GDM traingdm 自适应学习率的梯度下降 BP 算法

GD traingd 梯度下降 BP 算法

OSS trainoss One Step Secant BP 算法

RP trainrp RPROP Resilient

反向传播

(

反弹

)

SCG trainscg 按比例缩小的共轭梯度下降 BP 算法

CGB traincgb Powell Beale restarts 共轭梯度下降 BP 算法

CGF traincgb Fletcher Reeves updates 共轭梯度下降 BP 算法

CGP traincgp Polak - Ribiere 变梯度 BP 算法

MATLAB 中提供了许多种 BP 算法，如表 (1.4) 所示。表中各种算法的特点可以参见《MAT-

LAB 神经网络 43 个案例分析》P392 或者《MATLAB 神经网络应用设计》P87。上述算法的本

质都在寻找梯度下降方向，并没有改变 BP 算法的大的算法结构，也没有改变神经网络的网络结

构。对于 BP 神经网络框架的改进，可以尝试下面几个方向：

http://www.ma-xy.com 34 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.2 前向型神经网络

1. 初始网络权重的改进。在前面的 BP 算法中，网络参数 W, V, b

, b

的初始值是随机设置的，

这种做法会导致网络收敛速度较慢，可以使用 GA 等优化算法挑选一些合适的初始值，然

后再运行 BP 网络。

2. 网络节点的改进。一般的 BP 网络中，各层神经元个数是事前确定的。这里，我们可以将网

络中神经元的个数也归入到网络优化当中，使用 GA 等算法进行预先求解。

3. 神经元连接方式的改进。一般的 BP 神经网络各层神经元之间采用全连接的形式，我们可

以采用部分连接的形式，也可以尝试随机连接的形式。

4. 传递函数 f

, f

的改进。下面，我们将介绍一种小波神经网络，这种网络就是将传递函数

, f

设置为小波函数 g。一个关键的问题是小波函数 g 的求导。

注：关于神经网络的逼近能力 (拟合能力)，Hecht-Nielsen 证明了如下 Kolmogorov 定理：

定理 (Kolmogorov 定理) ∀f : U → R ∈ C

，f 可以精确的用 3 层前馈神经网络实现。

MATLAB 示例

MATLAB 提供了许多神经网络函数命令，下面，我们简单的介绍一些网络。

¬tnet 用于函数拟合，其调用格式为

net = tnet(hiddenSize,train,Fcn)

示例:

1 [ x , y ] = s i m p l ef i t . dat aset ;

2 net = f i t n e t (1 0) ;

3 view ( net )

4 net = t r ai n ( net , x , y) ;

5 y_hat = net (x) ;

6 pe r f = perform ( net , y_hat , y)

feedforwardnet 用于构建前馈神经网络，其调用格式为

net = feedforwardnet(hiddenSize,train,Fcn)

示例：

1 net = f eedfo rward net (10) ;

2 net = t r ai n ( net , x , y) ;

3 view ( net ) ;

4 y_hat = net (x) ;

5 pe r f = perform ( net , y_hat , y)

1.2.4 小波神经网络

todo：待补充。。。

http://www.ma-xy.com 35 http://www.ma-xy.com

http://www.ma-xy.com

1.2 前向型神经网络第一章神经网络

1.2.5 RBF 径向基神经网络

当网络的一个或多个可调参数 (W, b) 对任何一个输出都有影响时，称该类网络为全局逼近

网络。由于每输入一个样本，权重都要调整一次，从而导致了全局逼近网络的学习速度很慢，比

如前面介绍的 BP 神经网络。如果对于输入空间的某一个局部区域只有少数几个链接权值影响输

出，则称该网络为局部逼近网络。常见的局部逼近网络为 RBF 网络、小脑模型 CMAC 和 B 样

条网络等，下面，我们就来介绍 RBF 径向基神经网络。

RBF 径向基插值

设共有 m 个样本 x

, y

(i = 1, 2, . . . , m)，x

, y

∈ R

× R。多变量插值可以表述为：寻找一

个函数 F : R

→ R，满足

F (x

) = y

i = 1 , 2, . . . , m

上面表述的插值问题是严格的插值问题，它要求插值函数 F 经过 n 个样本点。径向基函数

插值就是构造如下形式的插值函数

F (x) =



i=1

φ(||x − x

||)

其中：{φ||x −x

||}

i=1

是 m 个函数的集合，称为径向基基组，φ||x −x

|| 称为径向基，||·|| 表示

范数，x

为径向基 φ||x − x

|| 的中心。当然，径向基 φ 的个数可以不是 m。

乍一看，径向基插值函数和支持向量机很像，一个是核函数 K(x, x

)，一个是径向基函数

φ(||x − x

||)。但是径向基函数是完全插值问题，要求 F (x

) = y



i=1

φ(||x

− x

||) = y



i=1

φ(||x

− x

||) = y

. . .



i=1

(

−

) =

将上式表述为矩阵的形式，有







. . . φ































其中：φ

= φ(||x

− x

||)，i, j = 1, 2, . . . , m。即

ϕw = y

http://www.ma-xy.com 36 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.2 前向型神经网络

其中：ϕ = {φ

}

i,j=1

。

我们要求 w，如果 ϕ 为非奇异矩阵，则 ϕ

−1

存在，那么 w = ϕ

−1

x。接下来的问题是：如何

保证矩阵 ϕ 是非奇异的呢？

可以证明，对大量径向基函数 φ，在某些条件下，上述问题的答案为：(1986.Micchelli 定理)

如果 {x

} 是 m 个互不相同的点的集合，则 m ×m 阶矩阵 ϕ 是非奇异的。有大量的径向基函数

满足 Micchelli 定理，比如：

(1) 多二次函数

φ(r) = (r

+ c

)

对某些c > 0, r ∈ R

(2) 拟多二次函数 (Inverse multiquadrics)

φ(r) =

+ c

)

(3) 高斯函数

φ(r) = e

−

2σ

(4)Reected Sigmoid

φ(r) =

1 + e

上面的拟多二次函数和高斯函数都是局部函数，当 r → ∞ 时，φ(r) → 0，并且二者的 ϕ 矩

阵是正定的。我们将上面的径向基函数 F (x) =



i=1

φ(||x − x

||) 绘制成神经网络的形状，其网

络结构图如图 (1.19) 所示

图 1.19: RBF 网络结构图

我们知道每个样本 x

(i = 1, 2, . . . , m) 都会是一个径向基函数 φ 的中心，其对应于 RBF 网

络结构图

(

1.19)

的中间层有

个神经元，每一个为

(

)(

= 1

, . . . , m

)

。

在介绍 RBF 网络的训练算法之前，我们来看一下 RBF 网络的缺点：

1. 插值函数 F (x) 会经过所有样本点 (x

, y

)，当样本中包含噪声 (坏点/坏样本) 时，RBF 会

拟合出一个坏的曲面 F ，从而使网络的泛化能力下降，由于输入样本 x

中含有坏样本，我

们就想挑选一些样本来做基 φ 的中心，而那些坏样本不能做 φ 的中心，这样，F 就不会经

http://www.ma-xy.com 37 http://www.ma-xy.com

http://www.ma-xy.com

1.2 前向型神经网络第一章神经网络

过“坏点”了。将径向基网络中间层的神经元个数设置为 k(k < m)，即从样本集中挑选 k

个作为基中心，则 RBF 可以写为

F (x) =



i=1

φ(||x − x

||)

至于如何从样本集中挑选 k 个样本，留在后面讨论 (主要目的是去掉样本中的坏点)。

2. 基函数个数等于训练样本数目时，当样本数目 m 很大时，远超于物理过程中有的自由度，

问题就把那位超定了，ϕ 可能不稳定。我们采用正则化方法解决这个问题。

上面我们建立了 RBF 网络，下面要讨论的问题是：1. 隐含层神经元个数以及径向基中心，

即如何从样本集中选取 k 个样本作为径向基中心；2. 径向基函数中的参数如何确定；3.RBF 网

络的训练方法。

RBF 的求解

首先，我们来解决径向基中心 x

(i = 1, 2, . . . , k) 的选取问题。我们的目标是从 m 个样本中

选出 k 个，使这 k 个样本能够尽可能反应 m 个样本的特征。聪明如我，马上就能想到用 K -

means 聚类方法来选择 k 个样本中心，如果我们能通过 K 均值聚类来挑选 k 个径向基中心，那

么想必其它聚类算法 (无监督方法) 也是可行的。但是在用 K 均值聚类时，我们仍然要确定聚类

中心数/径向基中心数 k，至于如何确定 k，我们不做讨论。假设我们已经得到了 k 和 k 个径向

基中心 x

，下面我们来求解权重 w = (w

, w

, . . . , w

)

。

方法 1：最小二乘法由于我们把径向基的个数从 m 调整为 k，所以 ϕ 不再是一个方阵，w 不

能像前面的 ϕ

−1

y 那样求解了。和前面参数回归部分处理的方法一样，我们将 ϕ

−1

处理成 ϕ 的

广义逆 (伪逆)ϕ

†

，于是有

w = ϕ

†

其中：ϕ

†

= ( ϕ

ϕ)

−1

，ϕ

ϕ 是一个方阵。我们令 R = ϕ

ϕ ，r = ϕ

y。

方法 2：递归最小二乘方法上述最小二乘方法使用的是非常普遍的。但是，当隐含层神经元

个数 k 很大时，求 (ϕ

ϕ)

−1

会是一个非常吃力的工作，因此，我们有必要对矩阵进行改造。令

R = ϕ

ϕ ，r = ϕ

y，则原回归问题写为

ϕw = ϕ

⇒ Rw = r

其中：R 定义为 k × k 相关函数，r 称为互相关向量。我们将 r 重写，对 n = 1, 2, . . . , m，有

r(n) =

n−1



i=1

ϕ(x

+ ϕ(x

= r(n − 1) + ϕ(x

= R(n − 1)w(n − 1) + ϕ(x

(1.11)

http://www.ma-xy.com 38 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.2 前向型神经网络

其中：ϕ(x

) =



φ(x

)

φ(x

)



∈ R

。在上面的第一个等式中，将 i = n 单独提取处理，在最后一个

等式中，用 r(n − 1) = R(n − 1)w(n − 1) 代替 r(n − 1)。

在式 (1.11) 的右边加上 ϕ(n)ϕ

(n)w(n − 1)，然后再减去它，有

r(n) = R(n − 1)w(n − 1) + ϕ(x

+ ϕ(n)ϕ

(n)w(n − 1) − ϕ(n)ϕ

(n)w(n − 1)



R(n − 1) + ϕ(n)ϕ

(n)



w(n − 1) + ϕ(n)



− ϕ

(n)w(n − 1)



(1.12)

上式 (1.12) 的 R(n − 1) + ϕ(n)ϕ

(n) = R(n) 是相关函数，而 y

− ϕ

(n)w(n − 1) 称为先验估

计误差。这里使用“先验”是为了强调估计误差 α(n) 是基于权重向量 w(n −1) 的老估计。回到

(1.12) 中

r(n) = R(n)w(n − 1) + ϕ(n)α(n)

将上述方程带入 r(n) = R(n)w(n) 中，有

R(n)w(n) = R(n)w(n − 1) + ϕ(n)α(n)

于是有

w(n) = w(n − 1) + R

−1

(n)ϕ(n)α(n)

上述问题的关键是：如何求解 R

−1

(n)。

我们已经知道

R(n) = R(n − 1) + ϕ(n)ϕ

(n)

那么对于 R

−1

(n)，可以通过迭代算法进行求解。先引入矩阵逆的计算

引理 (矩阵逆的计算) 设矩阵 A 为

A = B

−1

+ CDC

其中：B 为非奇异矩阵，B

−1

存在，A, B 有相同的维度，D 为一非奇异矩阵。则 A

−1

为

−1

= B − BC(D + C

BC)

−1

根据上述矩阵逆的引理，我们有

−1

(n) = R

−1

(n − 1) −

−1

(n − 1)ϕ(n)ϕ

(n)R

−1

(n − 1)

1 + ϕ(n)R

−1

(n − 1)ϕ(n)

这里，我们在方程右端第二项利用了相关矩阵的对称性 R

= R。

下面，我们各处 RBF 的递归最小二乘算法。为了书写方便，我们引入两个新的变量

−1

(n) = p(n)

g(n) = R

−1

(n)ϕ(n) = p(n)ϕ(n)

http://www.ma-xy.com 39 http://www.ma-xy.com

http://www.ma-xy.com

1.2 前向型神经网络第一章神经网络

称 g(n) 为增益向量，因为 w(n) = w(n − 1) + g(n)α(n)。RBF 递归最小二乘算法为：

Step1. 初始化。

训练样本 {ϕ(i), y(i)}，w(0) := 0，p(0) = λ

−1

I，容错误差 ε，径向基个数 k。

Step2. 计算径向基中心 x

(j = 1, 2, . . . , k)。

Step3. 确定高斯径向基 φ(r) = e

−

2σ

的参数 σ

max

√

j = 1, 2, . . . , k

其中：c

max

为选取中心 x

的最大距离。

Step4. 对样本 n = 1 , 2, . . . , m 进行如下计算

p(n) = p(n − 1) −

p(n − 1)ϕ(n)ϕ

(n)p(n − 1)

1 + ϕ

(n)p(n − 1)ϕ(n)

(

) =

(

)

(

)

α(n) = y(n) − w

(n − 1)ϕ(n)

w(n) = w(n − 1) + g(n)α(n)

Step5. 终止条件。不终止则返回 Step4。

注意：初始值 p(0) = λ

−1

I，λ 是小的正常数，是基于如下正则化目标

J(w) =



i=1



− w



λ||w||

(1.13)

方法 3：LMS 算法一般的，我们研究以 (1.13) 为目标的 LMS 算法，我们将正则化项去掉，求

w 使 J (w) 最小

min

J(w) =



i=1



− w





i=1

其中：e

为样本 x

, y

的误差。

现在，我们不仅要求 w 使 J(w) 最小，还要求径向基中心 c 和高斯径向基的外来参数 (“超

参数”)σ 使 J(w) 最小。整理一下 RBF 模型

y = w

φ(||x − c||)



j=1

φ(||x − c

||)



j=1

exp



−

2σ

||x − c



其中：k 为径向基个数，φ 为径向基函数，φ(x) = exp



−

2σ

||x − c



为高斯径向基，σ

为径

向基超参，c

为径向基中心。

http://www.ma-xy.com 40 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.2 前向型神经网络

所以，我们现在不仅要求 w

使 J(w, c, σ) 最小，还要求 c

和 σ

使 J(w, c, σ) 最小。将

J(w, c, σ) 关于参数 θ = (w, c, σ) 求导，有

∂J

∂θ



i=1

∂e

∂θ



i=1

∂e

∂θ

所以，只需要求每个样本 x

, y

的残差 e

关于参数 θ 的导数即可，有

= y

−



j=1

exp



−

2σ

||x

− c



为使 J(w) 最小，参数修正量 ∆θ 与梯度方向 ∇

相反，于是有

∆c

= η



i=1

φ(||x

− c

||)(x

− c

)

∆σ

= η



i=1

φ(||x

− c

||)||x

− c

∆w

= η



i=1

φ(||x

− c

||)

上述梯度方向是所有样本的梯度方向，是全局梯度 (即 GD)，在算法编程的表现是：当所有

样本循环一遍之后才更新一次权重参数。当然，我们也可以使用梯度下降 SGD(一次一个样本)

和批量梯度下降 MBGD(一次部分样本) 来加快收敛速度。对于 SGD 的一次一个样本而言，记

样本为 x

, y

，则目标为

min E(θ) =

并且有如下参数更新公式

∆c

= η

φ(||x

− c

||)(x

− c

)

∆σ

= η

φ(||x

− c

||)||x

− c

∆w

= ηe

φ(||x

− c

||)

注：2002.Rifkin 博士论文中细致的比较了基于 RLS 算法的 RBF 和 SVM 在线性可分模式下的

性能，实验表明：¬RLS 和 SVM 近乎相同；二者都对异常样本点敏感，在 USPS 数据集上，

RLS 和 SVM 在 ROC 曲线上一样的好甚至更好，在 MIT 人脸识别上，SVM 比 RLS 要好。

MATLAB 示例

MATLAB 中提供了两个径向基网络：newrb 和 newrbe，并提供了径向基函数 radbas。

¬newrb 用来设计一个 approximate 径向基网络，其调用格式为

net = newrb(x,y,goal,spread,MN,DF)

其中：x 是一个 n ×m 输入矩阵；y 是一个 p ×m 的目标矩阵；goal 是 MSE 的容错程度，默认

http://www.ma-xy.com 41 http://www.ma-xy.com

http://www.ma-xy.com

1.2 前向型神经网络第一章神经网络

为 0；spread 是径向基函数的扩展速度；MN 是神经元最大数目；DF 是两次显示之间所添加的

神经元数目。

newrbe 用于设计一个精确径向基网络，其调用格式为

net = newrbe(x,y,spread)

示例：

1 x = [ 1 , 2 , 3 ] ;

2 y = [ 2 . 0 , 4 . 1 , 5 . 9 ] ;

3 net = newreb (x , y) ;

4 %net = newrb(x , y) ;

5 x_new = 1 . 5;

6 y_hat = sim ( net , x_new) ;

1.2.6 广义回归网络 GRNN

广义回归网络 GRNN 是美国学者 Donald.F.Specht 于 1991 年提出的网络结构，具有很强

的非线性映射能力和高度的容错性和鲁棒性，适用于非线性函数拟合、逼近问题。GRNN 在逼

近能力和学习速度上较 RBF 有更强的优势，网络 (函数) 最终收敛于样本量积聚较多的回归面，

并且在样本量较少时效果也很好。

在前面的 RBF 中，我们曾经提到过径向基函数 φ 和核函数是相似的，下面我们来看一下非

参数核回归和 RBF 之间的关系。在非参数回归部分，我们介绍了一些非参数回归方法，其中就

有 N-W 常系数核权重回归，其回归式为

ˆy =

f(x) =



i=1



x−x





j=1



x−x



其中：h 为窗宽，x

∈ R

，共有 m 个样本和 m 个核。我们令

(x) =



x−x





j=1



x−x



则有

ˆy =



i=1

(x) (1.14)

且权重和为 1，即



= 1 。

下面，我们将 RBF 网络中的径向基函数 φ 也归一化

φ(x) =



||x−x





j=1



||x−x



http://www.ma-xy.com 42 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.3 竞争型神经网络

用归一化径向基 φ 来重新构建 RBF 模型，有

F (x) =



i=1

φ(x) =



i=1

exp



−

||x−x

2σ





j=1

exp



−

||x−x

2σ



(1.15)

其中：φ(x) 为归一化的径向基函数。上面式 (1.15) 即为广义回归神经网络 DRNN，MATLAB 中

是用 newgrnn 来实现 GRNN 的，其调用格式为

net = newgrnn(x,y,spread)

1.3 竞争型神经网络

1.3.1 自组织特征映射 SOM

SOM 网路结构

自组织特征映射网络 (self-Organizing Feature Map) 是一种无监督学习算法，由芬兰赫尔辛

基大学教授 Kohonen 于 1981 年提出，所以也称为 Kohonen 网络。SOM 可用于语音识别、图像

处理、组合优化和数据分析等众多领域。

前面我们讨论的神经网络都属于有监督学习模型，并且网络神经元的连接有一个特点是：只

有上下层神经元的连接，某一层的各神经元之间不连接，如图

(

1.20) 所示

图 1.20: 层间连接示意图

常用的 SOM 神经网络由输入层和输出层 (竞争层) 组成，输入层各神经元通过权重将外界

信息 (样本) 汇集到输出层各神经元。输出层神经元与输入层神经元全连接，输入层和输出层内

部神经元不连接，输出层内的每个神经元与其邻近的神经元连接，连接时互相激励的作用，训练

后，输出层不同神经元节点代表不同的分类模式，所以 SOM 的输出层也叫做特征映射层。

竞争层神经元的排列方式可以是一维的、二维的也可以是高维的，甚至还可以是不规则排列

的。下面图 (1.21) 给出了输出层二维排列的 SOM。

http://www.ma-xy.com 43 http://www.ma-xy.com

http://www.ma-xy.com

1.3 竞争型神经网络第一章神经网络

图 1.21: 输出层二维排列的 SOM

其中：输入层神经元个数为 n，竞争层神经元个数为 k ×k = K 个，二维输出层上的各神经

元之间可以是全连接，也可以是局部连接。SOM 的目标是在无监督 (无 y) 的情况下，从输入数

据中找出规律，网络通过自身训练自动对输入模式 (样本) 进行分类。

SOM 学习算法

上面介绍了 SOM 的网络结构，下面介绍它的学习算法。SOM 学习算法包含竞争、合作和

更新 3 个过程：

(1) 竞争过程：在竞争过程中，确定输出最大的神经元为获胜神经元。就单一神经元来看，由

于神经元的激励函数 (传递函数) 是线性的，所以神经元的输出值的大小取决于神经元的输入



，即输入向量 x 和权重 W 的内积 (注：权重矩阵用 W, W

, V 等表示，矩阵元素

用 w

表示，矩阵某行某列用 W

= w

表示)。而该内积最大在输入向量和权重均为归一化时，

等价于 x, W 的欧几里得距离最小，所以，当输入向量为 x，且第 l 个神经元获胜时，满足条件

||x − w

|| = min

1⩽i⩽K

||x − w

(2) 合作过程：确定获胜神经元的加强中心。以在竞争过程中获胜的神经元为中心，设置邻域大

小，在邻域范围内的神经元称为兴奋神经元，即加强中心。

(3) 更新过程：采用 Hebb 学习规则对权重进行更新。

SOM 学习算法的步骤如下：

Step1. 初始化。

输入层神经元个数 n，输出层神经元个数 K，初始连接权重 w(0)，竞争神经元 j 个邻接神

经元集合 S

，S

(0) 是随机的，S

(t) 随迭代次数 t 不断减小，置 t := 0 。

Step2. 将一个样本 x = ( x

, x

, . . . , x

)

输入到网络。

Step3. 计算欧几里得距离 d

。

输入样本与每个输出神经元 j 之间的欧几里得距离

= ||x − w

|| =









i=1



(t) − w

(t)



其中：w

表示矩阵的第 j 列。计算出最小距离对的神经元 j

∗

= arg min

1⩽j⩽K

}

http://www.ma-xy.com 44 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.3 竞争型神经网络

Step4. 给出获胜神经元 j

∗

的一个邻域 S

∗

(t)。按下式修正获胜神经元 j

∗

及其“邻接神经元”的

权值

(t + 1) = w

(t) + η(t)[x

(t) − w

(t)]

其中：η 为学习率，可以是 η(t) =

。

Step5. 计算输出 y

= f(min

||x − w

||)

其中：f 为激励函数，可以是 0, 1 函数也可以是线性函数。

Step6. 终止条件。如果不终止，则返回 Step2.

MATLAB 应用实例

MATLAB 提供 selforgmap 来实现 SOM 网络，其调用格式为

selforgmap(dimensions,cowerSteos,initNeighbor,topolugyFun,distanceFcn)

其中：dimensions 是行向量维数，默认为 8 × 8；coverSteps Number of training steps for initial

covering of the input space, 默认为 100；initNeighber 为初始邻域大小；topologyFcn 为层拓扑

函数，默认为’hextop’；distanceFcn 为距离函数，默认为’linkdist’。函数示例如下

1 x = simp l e c luste r _ d atase t ;

2 net = selforgmap ( [ 8 , 8 ] ) ;

3 net = t r ai n ( net , x) ;

4 view ( net ) ;

5 y = net ( x ) ;

6 c l a s s e s = vec2ind (y) ;

1.3.2 自适应共振网络 ARF-i

自适应共振理论 ART(Adaptive Resonance Theory) 是一种典型的自组织神经网络，由

Grossberg 和 Carpentent 等人于 1986 年提出。ART 模型与生物神经系统比较接近，其记忆

容量可以随学习模式 (样本数量) 的增加而增加，记忆模式也与生物的记忆形式类似，与常见的

其它一些神经网络相比，ART 有以下优点：

¬可以进行实时的在线学习(在线学习是机器学习研究的一个重要方向)；可以在动态环境

下学习；®对已学习的模式 (样本) 可以快速得到结果；¯系统存储的增加不影响系统的其它属性，

但对许多神经网络而言，当系统存储能力增加时，由于整个系统的复杂度增加，很多关键属性特

征将恶化。

根据网络输入和结构的不同，ART 网络可分为：¬ART1，可以处理双极形式二进制型信号；

ART2，可以处理连续型模拟信号；®ART3 是一种分级搜索模型，可以是任意多层神经网络。

Carpenter 等人已经证明：对任意二进制输入 (0,1) 的 ART1 都能稳定的进行学习，直到耗尽其

存储能力为止。

todo: 引入：《人工神经网络原理》P109-P129

http://www.ma-xy.com 45 http://www.ma-xy.com

http://www.ma-xy.com

1.3 竞争型神经网络第一章神经网络

1.3.3 学习向量量化神经网络 LVQ

LVQ 网络结构

学习向量量化 LVQ 是 Kohonen 提出的一种有监督的学习算法，在模式识别和优化领域有

广泛应用。LVQ 网络由 3 个网络层组成：输入层、竞争层和线性输出层。输入层和竞争层之间

采用全连接方式，竞争层与线性输出层之间采用部分连接的方式。竞争层神经元的个数总是大于

线性输出层神经元的个数，每个竞争层神经元只与一条线性输出层神经元连接，且连接权重恒为

1，每个线性输出层神经元可以与多个竞争层神经元相连接。竞争层神经元和线性输出层神经元

的值只能是 0 或者 1。当某个输入模式被输入到网络时，与输入模式距离最近的竞争层神经元

被激活，神经元状态为 1，与被激活神经元连接的线性输出层神经元变为 1。LVQ 网络结构如图

(1.22) 所示。

图 1.22: LVQ 网络结构图

LVQ 学习算法

LVQ 的学习算法是：“奖罚”学习算法。具体地，假设在训练样本集内随机选择 D 个初始模

板向量 (初始 Veronoi 向量)，对于来自训练集的任意一个样本 x，如果 x 与最近的模板属于同一

类，则无需学习；否则将惩罚分类错误的模板，奖励其对应正确类别的模板。若经过迭代后，所

有向量量化 (Veroni 向量) 不再明显变化，则收敛。

例如：某 LVQ 竞争层有 6 个神经元，输出层有 3 个神经元 (代表 3 类)。若竞争层的 1、3

神经元与第 1 个输出神经元连接，2、5 与第 2 个输出神经元连接，3、6 与第 3 个神经元连接，

则竞争层与输出层的连接权重为







1 0 0

0 1 0

1 0 0

0 0 1

0 1 0

0 0 1







注：W

的行表示输出层 3 个神经元。我们在训练之前预先设定好 W

，从而指定了输出神经元

的类别，训练中不再改变。网络的学习通过改变输入层到竞争层权重 W

来进行，根据输入样本

类别和获胜神经元所属类别可判断当前分类是否正确，若分类正确，则将获胜神经元的权向量向

输入向量 (样本) 方向调整，分了错误则向相反的方向调整。下面给出 LVQ 学习算法的步骤。

http://www.ma-xy.com 46 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.3 竞争型神经网络

LVQ 学习算法 1：

Step1. 初始化。初始化 W

且训练过程中不再改变；输入层到竞争层的权重 W

= (w

)；学习

率 η(0)，置 t := 0，T

max

。

Step2. 将一个样本 x, x ∈ R

输入到输入层，计算竞争层神经元与输入向量的距离

= ||x − w

|| j = 1, 2, . . . , l

其中：l 为竞争层神经元个数，x ∈ R

，w

∈ R

是 W

矩阵的第 j 列。

Step3. 选取获胜神经元

∗

= min

}

记与 j

∗

连接的线性输出层神经元的标签为 c

(预测类别)。

Step4. 更新权重 W

。样本 x 的实际类别为 c

，如果 c

= c

，则

∗

:= w

∗

+ η(x − w

∗

)

否则

∗

:= w

∗

− η(x − w

∗

)

其它非获胜神经元的权重不变。

Step5. 更新学习率

η(t) = η(0)



1 −

max



Step6. 终止条件。如果不终止，置 t : t + 1 返回 Step2。注：我们在 t 时刻下循环所有样本。

LVQ 学习算法 2。在 LVQ 学习算法 1 中，每个样本 x 只会有一个获胜神经元 j

∗

，即只有一

个神经元更新权重 w

。为了提高分类正确率以及算法的收敛速率，Kohonen 改进了 LVQ1，并称

该进后的算法为 LVQ2。LVQ2 算法基于光滑的移动决策边界逼近 Bayes 极限。在这之后，LVQ2

被修改为 LVQ2.1，并进一步有了 LVQ3。LVQ2 的算法步骤如下：

Step1. 利用 LVQ1 对所有样本进行学习。

Step2. 将一样本 x = (x

, x

, . . . , x

)

∈ R

输入到输入层，并计算它与竞争层个神经元之间的

距离

= ||x − w

|| j = 1, 2, . . . , l

Step3. 选择与 x 距离最近的 2 个竞争层神经元 i, j。

Step4. 如果神经元 i, j 满足以下两个条件：

1. i, j 对应不同的输出类；

min





> ρ

其中：ρ =

1−w

1+w

，w ∈ [0.2, 0.5]。

http://www.ma-xy.com 47 http://www.ma-xy.com

http://www.ma-xy.com

1.3 竞争型神经网络第一章神经网络

则有

(1) 如果 i 对应类别 c

与样本 x 的类别 c

一致时，有

:= w

+ α(x − w

)

:= w

− α(x − w

)

(2) 如果 j 对应类别 c

与输入向量 x 的类别 c

一致时，有

:= w

− α(x − w

)

:= w

+ α(x − w

)

Step5. 如果不满足 Step4，则只要更新距离最近的神经元权重即可。

Step6. 终止条件。如果不终止，置 t := t + 1，返回 Step2。

MATLAB 应用示例

MATLAB 中用 lvqnet 来实现 LVQ 网络，其调用格式为

lvqnet(hiddenSize,lvqLR,lvqLF)

其中：lvqLR 为学习率，默认为 0.01；lvqLF 为学习函数，默认为’learnlv1’。示例为

1 [ x , y ] = i r is _ da t as e t ;

2 net = l vqn et ( 10) ;

3 net . trainParm . epochs = 50;

4 view ( net ) ;

5 y_hat = net (x) ;

6 pr e f = perform ( net , y_hat , y) ;

7 c l a s s e s = vec2ind (y_hat)

注：MATLAB 中还提供了 competlayer 和 patternnet 网络。

1.3.4 对向传播网络 CPN

CPN 网络结构

对向传播网络 CPN(Counter Propagation Network) 是将 Kononen 特征映射网络与 Gross-

berg 基本竞争型网络相结合，并它会各自特点的一种特征映射网络。由美国计算机专家 Robert

Hecht-Nielsen 于 1987 年提出，并广泛用于模式分类、函数逼近、统计方式和数据压缩等领域。

CPN 网络结构分为 3 层：输入层、竞争层和输出层。输入层与竞争层构成 SOM 网络，竞

争层与输出层构成基本竞争型网络。从整体上看，网络属于有导师型网络，并结合了 SOM 无导

师的特点，其网络示意图如图 (1.23) 所示

http://www.ma-xy.com 48 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.3 竞争型神经网络

图 1.23: CPN 网络结构图

其中：输入层神经元个数为 n，共 m 个样本，竞争层有 l 个神经元，其输出为 0, 1，输出层

有 K 个神经元 (共 K 类)，输入层到竞争层权重为 W ，竞争层到输出层权重为 V 。从输出层到

竞争层，CPN 网络按照 SOM 学习规则产生获胜神经元，得到各输出神经元的实际输出值，并

按照有导师式的误差校正方法修正权重 V 。

CPN 学习算法

下面，我们给出 CPN 的学习算法。

Step1. 初始化。初始化权重 W, V ，并将样本归一化。

Step2. 输入单一样本 x, x ∈ R

到输入层。

Step3. 将权重 w

归一化

||w

j = 1, 2, . . . , l

Step4. 求竞争层中每个神经元 j(j = 1, 2, . . . , l) 的输入

= xw

Step5. 求上千种 {w

} 中与 x 最接近的向量 w

∗

。当 j = j

∗

时，记 b

= 1 ，否则记为 b

= 0 。将

∗

神经元的输出设置为 1，其余不变。

Step6. 修正 w

∗

:= w

∗

+ η(x − w

∗

)

并将 w

∗

归一化。

Step7. 修正 v

:= v

+ βb

− c

′

) k = 1, 2, . . . , K

其中：c

为第 k 个输出类别，c

′

为真实输出类别。上式可简写为

∗

:= v

∗

+ βb

− c

′

)

只需要调整竞争层获胜神经元 j

∗

到输出层神经元的连接权向量 v

∗

即可，其余权重不变。

Step8. 求输出值

= bv

k = 1, 2, . . . , K

http://www.ma-xy.com 49 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

其中：c ∈ {0, 1}

。可简写为

= v

∗

Step9. 返回 Step2，直到 m 个样本都输入一遍。

Step10. 终止条件。不终止，则置 t := t + 1，返回 Step2。

1.4 反馈型神经网络

1.4.1 Hopeld 网络

Hopeld 网络的建立

1982 年，美国加州理工大学生物物理学家 Hopeld 提出一种新颖的人工神经网络 - Hopeld

网络。Hopeld 网络摒弃了神经网络中“层”的概念，创造出全连接神经网络，并且在网络训练

时引入 Lyapunov 函数 (能量函数)，通过网络训练来使网络的能量最小。这一引入阐明了神经网

络与动力学之间的关系，使神经网络的稳定性有了判断依据。Hopeld 根据网络输入和输出的不

同，可以分为两种类型：离散型 Hopeld 网络和连续型 Hopeld 网络。

Hopeld 最早提出的是离散型二值 Hopeld 神经网路 (DHNN)，其神经元的输出只有 1 和

−1，前面我们谈到的前向型神经网络和竞争型神经网络，它们的网络结构都是前向的，不具有自

回归，如图

(

1.24) 所示

(a) 前向型网络 (b) 反馈型神经网络 1 (c) 反馈型神经网络 2

图 1.24: 反馈网络示意图

如果从图论中图的连接方式来看，前向型网络是图 (1.24) 中 (a) 的单向连接，而反馈型神经

网络则是图 (1.24) 中 (b)(c) 的无向连接或双向连接。

为了导出 Hopeld 网络，我们仍然从分类/回归问题开始：

ˆy = f (w

x − θ)

其中：为了迎合神经网络，我们将 +θ 写为 −θ。现在考虑一个有意思的问题，如果我们令 y = x

呢？有

ˆx = f (w

x − θ)

http://www.ma-xy.com 50 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

在系统论中，上述两个模型都是系统，只不过一个是因响应系统，一个是自响应系统。如果设迭

代次数 (时间) 为 t，则

x(t + 1) = f (w

x(t) − θ)

即 t + 1 时刻系统值 x(t + 1) 与 t 时刻系统值 x(t) 有关。在微分方程部分，我们研究了这种方程

的一些性质，比如：Lyapunov 稳定，吸引子等等。

假设我们已经有了权重矩阵 W ∈ R

n×n

，则通过不断的迭代，我们会有系统轨迹 x(0),x(1),. . . 。

记 {x(t)}

为系统轨迹，平稳是指：当 t → ∞ 时， lim

t→∞

x(t) → x

∗

，则称 x

∗

为稳定点。我们写

出使 x(t) 稳定的过程：

Step1. 初始化。初始权重 w

，bais θ

，x(0)，置 t := 0 ，T

max

。

Step2. 计算 x(t + 1)。

x(t + 1) = f (w

x(t) − θ)

Step3. 判断是否稳定。

x(t + 1) = x(t)

Step4. 终止条件。如果 x(t + 1) = x(t) 或者 t = T

max

则终止。

现在，我们有 m 个样本，每个样本 k 为 x

= (x

, x

, . . . , x

) ∈ {−1, 1}

，即共有 n 变量

，且 n 个变量均为 −1, 1 型变量。在给定 w = ( w

)

n×n

后，可以写出其关系式

x = f(w

x − θ)

并且，为了使 x 能够为 ±1，我们设置 f 为 sgn，于是有

x = f(w

x − θ)

= sgn(w

x − θ)

注：我们给定的权重 w = (w

)

n×n

有 w

= 0 ，并且可以设置 w

= w

。

将上面的关系式绘制成网络图，如图 (1.25) 所示

图 1.25: 自回归网络图

http://www.ma-xy.com 51 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

就某个神经元 x

(j = 1, 2, . . . , n) 来看，有

= f





− θ



= sgn





− θ









−1

在

w, θ

给定之后，如果给定某个样本

(k = 1, 2, . . . , m)，将 x

输入到到网络中，由前面的动

力学 (微分方程) 部分，我们知道 x

随着时间 t 的变化会稳定下来：x

(0), x

(1), . . . , x

(t) → x

k∗

。

并且，我们是在 t 时刻将 x

(t) 整体输入到网络中，并转化为 x

(t + 1)，现在，我们仅转化样本

的一个分量 x

或部分分量，让其余分量不变，以减小计算量和存储量，于是 x

有以下收敛

步骤：

Step1. 初始化。第 k 个样本 x

(0)，w, θ，置 t := 0，T

max

。

Step2. 挑选第 j 个变量进行更新

(t + 1) = f





− θ



其余变量保持不变

(t + 1) = x

(t) i = 1, 2, . . . , n, i = j

Step3. 判断是否稳定

(

+ 1) =

(

)

Step4. 终止条件。若 x

(t + 1) = x

(t) 或者 t = T

max

，则终止；否则，置 t := t + 1，返回 Step2。

Hopeld 网络的学习算法

上面的收敛过程中，我们假设已经得到了权重 w, θ，但是，w 和 θ 应该如何获得呢？从网络

最初建立时的初始空间状态，到设计适当的连接权重 w 和阈值 θ 使网络具有知识，具有对给定

模式 (样本) 的联想能力，其中的权重设计过程就是 Hopeld 网络的学习过程。下面，我们来介

绍几种求权重 w 的方法。

方法 1：Hebb 外积法 (1) 若只有一个样本 x

(k = 1, 2, . . . , m)，对 x

而言，若网络达到稳定

状态，则有

(

先忽略

)

= sgn(x

即

= sgn





i=1



j = 1, 2, . . . , n

http://www.ma-xy.com 52 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

由 sgn 函数的特点可知，若 x





i=1



> 0，则上式成立。由上述内容可知，网络的连接权

重与输入向量的各分量的关系式为

= αx

其中：α 为正常数。(2) 若有 m 个样本 x

，则由归纳法有权重 w

的推广公式

= α



k=1

由 w

= 0 ，所以上式可以写为

w = α



k=1

)

− I

由此，可以得到权重 w 的更新迭代公式的规律：一个样本加一次 (x

)

，于是有

= 0

= w

k−1

+ (x

)

− I k = 1, 2, . . . , m

从上述连接权重的学习过程可以看出，权重 w 对样本的记忆是累加实现的，每记一个新的

样本 x

，就更新一个权重 w

。但是，就像前面 BP 算法分析的那样，一次一个样本的更新权重

w 会使 w“遗忘”前面的样本。事实上，当网络规模 n 达到一定时，要记忆的样本 m 越多，联

想时出错的可能就越大。研究表明，对于具有 n 个神经元的 Hopeld 网络，当 m 超过 0.15n 时，

网络的联想记忆就有可能出错，错误结果对应的是能量函数的局部极小点。

方法 2：伪逆法由 Hebb 方法可知



k=1

)

将内积写成如下形式



)

= x

则伪逆学习规则用下式求 w

w = X(X

−1

= XX

†

其中：X 是所有样本数据。我们知道伪逆 X

†

是基于最小二乘法的，关于伪逆我们这里做一些

简单的说明：当 m × n 维矩阵 X 不是方阵时，求逆就变成了伪逆，并且当 m > n，伪逆写为

†

= (X

−1

；当 m < n，则伪逆写为 X

†

= X

−1

。另外，还可以用 SVD 和 QR

等方法求伪逆 X

†

。

http://www.ma-xy.com 53 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

方法 3：正交化法 MATLAB 用函数命令 newhp 建立 Hopeld 网络，newhp 就是采用 SVD 方

法来求解伪逆矩阵，进而求解权重 wd 的。其计算步骤如下：

Step1. 初始化。X = {x

, x

, . . . , x

} 是 m 个样本数据，x

∈ {0, 1}

，τ > −1，h。

Step2. 计算 A。A = ( x

, −x

, x

− x

, . . . , x

m−1

− x

)

∈ R

n×(n−1)

。

Step3. 对 A 进行 SVD 奇异值分解

A = USV

其中：MATLAB 命令为 svd(A)，U, V 为正交矩阵，U = (u

, u

, . . . , u

), V = (v

, v

, . . . , v

m−1

)，

S 为对角矩阵，S = (

Σ 0

0 0

) ，Σ = diag(λ

, λ

, . . . , λ

)，k 维空间为 n 为空间的子空间，由 k 个

独立基组成，k = rank(A)，设 {u

, u

, . . . , u

} 为 A 上的正交基，而 {u

k+1

, u

k+2

, . . . , u

} 为 n

维空间的补正交基。

Step4. 利用 U 来设计权重。



i=1



i=k+1

= w

− τw

其中：τ 为大于 −1 的参数；w

, w

满足对称条件，因而 w

中分量也满足对称条件，这就保证

了系统在异步时能够收敛并且不会出现震荡现象。

Step5. 构建网络的偏差矩阵

= x

− w

Step6. 计算 w

w = exp(hw

)

Step7. 计算 b

b = V ×



× I(k) 0(k, n − k)

0(n − k, k) C

× I(n − k)



× U

× b

其中：C

= exp(h)

−1

，C

= −

exp(−2xh−1)

。

Hopeld 网络的能量函数

Hopleld 运行过程中，网络不断趋于稳定，那么，我们能否用 Lyapunov 函数来描述这种系

统稳定呢？我们定义 Hopeld 网络的能量函数 (Lyapunov 函数) 为

E = −



i=1



j=1



i=1

http://www.ma-xy.com 54 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

Hopeld 网络是一个非线性动力系统，网络状态的变化过程实际上就是一个使能量函数极小化的

过程。为了说明能量单调递减，考虑网络中的任意一个神经元 j

= −



i=1

+ θ

= −



i=1

+ θ

t 时刻到 t + 1 时刻，j 神经元的能量变化为

∆E

= E

(t + 1) −E

(t)

= −

∆x



i=1

+ ∆x

= −∆x





i=1

− θ



∆x



i=1

由于在 t + 1 时刻只有神经元 j 调整了状态，并且个神经元不存在自反馈，所以

∆E

= −∆x





i=1

− θ



在 t + 1 时刻，有

1. 若神经元 j 的状态未变，则 ∆x

= 0 ，∆E

= 0 ；

2. 若神经元 j 的状态由 t 时刻的 −1 变为 t + 1 时刻的 1，则 ∆x

= 2 ，



i=1

−θ

> 0，

∆E

< 0；

3. 若神经元 j 的状态由 t 时刻的 1 变为 t + 1 时刻的 −1，则 ∆x

= −2，



i=1

−θ

⩽ 0，

所以 ∆E

⩽ 0；

综上，当神经元 j 的状态改变时，无论变化如何，能量改变量 ∆E

⩽ 0。由于 j 为任意一个神

经元，所以，网络的能量变化量总小于等于 0，即

∆E ⩽ 0

由此，Hopeld 网络平稳过程是一个能量极小化过程。并且由于能量函数有界，所以网络一定会

趋于稳定状态。

MATLAB 应用示例

MATLAB 中使用 newhp 函数来实现离散型 Hopeld 网络，其调用格式为

net = newhp(T)

其中：T 是 m 个目标向量的 m ×n 矩阵，元素为 ±1；激活函数为 satlins(饱和线性函数)。其示

例为

http://www.ma-xy.com 55 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

1 T = [ 1 1 −1 1 ; −1 1 1 −1;−1 −1 −1 1 ; 1 1 1 1; −1 −1 1 1 ] ;

2 net = newhp(T) ;

3 P = { rands ( 5 ,4 ) };

4 [Y, Pf , Af ] = net ({4 , 5 0} ,{} ,P) ;

5 Y{end}

1.4.2 双向联想记忆网络 BAM

BAM 的网络结构

前面的 Hopeld 网络是自连接自回归的形式，B.Kosko 于 1988 年提出 BAM(Bidirectional

Associature Menory) 神经网络，可以实现双向联想 (x → y, y → x)，其网络结构如图 (1.26)

图 1.26: BAM 网络结构图

BAM 的输入层有 n 个神经元，输出层有 l 个神经元，令 X 到 Y 的权重为 W ，则 Y 到 X

的反向权重为 W

。设共有 m 个样本 x

，每个样本 x

有 n 个输入变量，x

= ( x

, x

, . . . , x

) ∈

{0, 1}

/{−1, 1}

，有 l 个输出变量 y

= ( y

, y

, . . . , y

) ∈ {0, 1}

/{−1, 1}

。假设我们已经给出了

权重 W ，则 BAM 的运行方式为：将样本 x

输入到输入层，有

= f

(W x

)

然后，再将输出 y

返回到输入层

= f

)

= f



(W x

)



当 x

, y

的神经元状态不再改变时，网络稳定。由上式我们可以看到 x

的更新过程：t 时刻，网络状

态为 x

(t), y

(t)，t+1 时刻，网络状态为 x

(t+1) = f



(W x

(t))



, y

(t+1) = f

(W x

(t))。

为了使网络神经元状态处于 {±1}，令 f

= f

= sgn，或者 f

= f

= satlins。上面，我们

假设已经给出连接权重 W ，下面，我们就来求解 W 。

BAM 网络的求解

(1) 当网络只需要存储一个样本 (x

, y

) 时，若使网络稳定，要满足

sgn(W x

) = y

sgn(W

) = x

(1.16)

http://www.ma-xy.com 56 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

易证明，当 W 是 x

, y

的外积时

W = y

则 (1.16) 式条件必然成立。

(2) 当网路要存储 m 个样本 (x

, y

)

k=1

时，由归纳法可得到权重 W 的计算公式

W =



k=1

)



(

)

和 Hopeld 网络的权重一样，BAM 的权重也可以用其它方法求解。

BAM 网络稳定性

¬无阈值 θ。定义 BAM 网络的 Lyapunov 函数 (能量函数) 为

E = −

Y −

W X

其中：X, Y 为样本矩阵。由于 Y

W X = (Y

W X)

= (W X)

Y = X

Y ，所有 E 也可以

写为

E = −X

Y (1.17)

可见，(1.17) 式与 Hopeld 网络的能量函数相似。由上述内容可知，样本点 (x

, y

) 为 BAM 网

络的稳定状态。

设 ∆x 引起的能量变化为 ∆E

∆E

= −∆X

Y = −



i=1

∆x



j=1

设 ∆y 引起的能量变化为 ∆E

∆E

= −∆Y

W X = −



j=1

∆y



i=1

当 ∆X = 0 时，∀∆x

和



j=1

，有 ∆E

⩽ 0；当 ∆Y = 0 时，∀∆y

和



i=1

，有 ∆E

⩽ 0。

所以，当 ∆X = 0, ∆Y = 0 时，∆E ⩽ 0。

考虑阈值 θ。令 θ

(i = 1, 2, . . . , n) 为 x

的阈值，µ

(j = 1, 2, . . . , l) 为 y

的阈值，则此时的

BAM 网络为

(t + 1) = f

(W X

(t) − µ)

(t + 1) = f

(t + 1) −θ) = f

(W X

(t) − µ) −θ)

http://www.ma-xy.com 57 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

定义其 Lyaponov 函数为

E = −XW Y

+ Xθ + Y µ

有能量差为

∆E = E(t + 1) − E(t)

= −(∆X)W Y

+ (∆X)θ

= −(∆X)(W Y

− θ

)

= −(∆x

)





j=1



由于 x

是双性的，即 x

∈ {±1}，所以 ∆x

必为 ±2 或 0。¬如果 x

= 0 ，则状态有变化，∆E < 0；

如果 ∆x

= −2，则



j=1

−θ

< 0，从而 ∆E < 0；®如果 ∆x

= 2 ，则



j=1

−θ

> 0，

从而 ∆E < 0，由此可见，当 BAM 网络状态改变时，有 ∆E < 0。

1.4.3 盒中脑 BSB

BSB 网络结构

盒中脑模型 (Brain State in a Box) 由 Anderson 于 1977 年提出。BSB 基本上是一个带幅度

限制的正反馈系统，我们仍然使用前面聚类数据 {x

}

k=1

，x

= ( x

, x

, . . . , x

) ∈ R

，由此，我

们可以想到它的网络结构是：输入层有 n 个神经元，输出层有 n 个神经元；设输入层到输出层

的连接权重为 W ∈ R

n×n

，并且假设 W 是对称矩阵，且 W 的最大特征值为正实数，λ

max

> 0。

BSB 的网络结构如图 (1.27)

图 1.27: BSB 网络结构图

我们仍然假设已经有了 W ，以便观察 BSB 的运行方式：对于某一个样本 x

，将 x

输入到

网络，有

= x

+ βW x

然后，将 y

反向传递给输入层，有

= φ(y

)

http://www.ma-xy.com 58 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

其中：β 是一个小常数，x

为 n 维向量，φ 是 sgn 或者 siglins 函数。由上面的传递过程，我们

可以看出，x

在不同时刻 t 的状态为

(t) = x

(t) + βW x

(t)

(t + 1) = φ(y

(t)) = φ(x

(t) + βW x

(t))

直觉上，BSB 模型的正反馈环节导致初始状态 x

(0) 的范数随着迭代次数 t 的增加而增加，

直到它撞到盒子 (单位超立方体) 的壁上，然后顺着壁滑行，最终停在盒子的一个稳定角点上，这

也是 BSB 名字的由来。

BSB 模型稳定性

我们就输入层某个神经元 j(j = 1, 2, . . . , n) 来看

(t + 1) = φ





i=1

(t)



其中：系数 c

= δ

+ β

，δ

为 Kronecker delta 函数，仅当 j = i 时为 1。

定义 BSB 模型的 Lyapunov 函数如下 (1990.Grossberg)

E = −



i=1



j=1

= −

Golden 在 1986 年分析了 BSB 模型，指出：BSB 模型实际上是一个梯度下降算法，使能量函数

E 最小，并且，值得一提的是：这要求权重矩阵 W 满足下面 2 个条件：¬W 是对称的；W 是

半正定的，λ

min

⩾ 0。这样，当在时刻 t + 1 时，状态向量 x(t + 1) 与在时刻 t 的状态向量 x(t)

不同时，BSB 模型的能量函数 E 随 t 的增加而减小。更近一步，能量函数 E 的最小点定义了

BSB 的平衡状态，模型由

x(t + 1) = x(t)

表征，即 BSB 是一个能量最小化网络。

BSB 模型的平衡状态由单位超立方体的特定的角点和它的原点定义，在后一种情况，状态向

量的任何波动，无论多小，都会被模型的正反馈环节放大，因此导致模型从原点向稳定状态转移。

换句话说，原点是一个鞍点。对超立方体来说，要使它的每一个角点作为 BSB 模型的平衡状态，

权重矩阵 W 还要满足第 3 个条件 (1988.Greenberg)：®权重矩阵 W 是对角有事的 (dominant)，

即

⩾



i=j

| j = 1, 2, . . . , n

为了使平稳状态 x 稳定，也就是为了使单位超立方体的一个特定角点是一个笃定的吸引子，

在单位超立方体中，必须有一个吸引盒 N (x)，使得对 N(x) 中的所有初始状态向量 x(0)，BSB

http://www.ma-xy.com 59 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

都收敛到 x。为了使单位超立方体的每个角点都可能是一个吸引子，W 必须满足第 4 个条件

(1988.Greenberg)：¯W 是强对角优势的，即

⩾



i=j

| + α j = 1, 2, . . . , n

如果 BSB 模型的权重 W 只是对称的和半正定的，则单位超立方体中只有一些角点是吸引

子，如果 W 还满足条件®¯，则单位超立方体中的所有角点都是潜在的吸引子。

1.4.4 极限学习机 ELM

无论是在时间序列问题中，还是在微分方程或者是语音 (文本) 处理当中，时间延迟都起

到了至关重要的作用，因为许多情况下，我们说 y 与 x 有关，不仅与 t 时刻的 x 有关 (例：

y(t) = f(x(t)))，还与 t − τ 时刻的 x 有关 (例：y(t) = f (x(t), x(t − τ )))。Elman 神经网络

是 J.L.Elman 于 1990 年针对语音处理问题提出来的一种网络，它是一种典型的局部回归网络。

Elman 网络具有与多层前向网络相似的多层结构，它的主要结构是前向连接，有输入层、隐含层、

承接层和输出层 4 个网络层，输入层隐含层和输出层同 BP 网络相似，而承接层的作用是：通过

连接记忆将上一个时刻的隐含层状态同当前时刻的网络输入一起作为隐含层的输入，相当于状态

反馈。隐含层传递函数仍为某种非线性函数，一般为 sigmoid 函数；输出层的传递函数为线性函

数；承接层也为线性函数，其网络结构示意图如图 (1.28) 所示

图 1.28: ELM 网络结构示意图

设输入层有 n 个神经元，输出层有 K 个神经元，隐含层有 L 个神经元，承接层有 L 个神

经元，输入层到隐含层的权重为 W ，承接层到隐含层的权重为 R，隐含层到输出层的权重为 V 。

我们共有 m 个样本 x

= ( x

, . . . , x

), k = 1, 2, . . . , m。

仍假设已经有了网络权重 W, R, V ，来研究 ELM 的运行方式。ELM 的运行方式为：将样本

输入到输入层，隐含层的输入为 W

+ R

，隐含层输出为 Y

= f

+ R

)，承

接层的输入为 Y

，承接层的输出为 Y

= Y

，输出层的输出为 o

= f

)。

http://www.ma-xy.com 60 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

由上面的 ELM 的运行方式可以看出，ELM 网络的权重更新 (学习方式) 可以用 BP 算法。

以 m 个样本的总离差平方和最小为目标，有

min

E =



k=1



k=1

||o

− y



k=1

)



k=1



i=1

− y

)



i=1

||o

− y

就像 BP 算法中那样，无论求 min E 还是 min E

，我们都用全部样本 X，所以求解的梯度

方向是全局梯度方向，为了加快收敛速度，我们采用 SGD 或 MBGD 等方法。对于计算梯度的问

题，只需要在 BP 算法的基础上再求一个 R 权重的梯度即可，这里，我们不再继续讨论了。后面，

我们将进入深度学习部分，我们先从 BM 网络谈起，接着按照 BM → RBM → DBN → DBM

的顺序进行。

MATLAB 中使用 elmannet 函数来实现 ELM 网络，其调用格式为

elmannet(layerdelays,hiddenSizes,trainFcn)

其中：layerdelays 是延迟数，默认为 1:2。

1.4.5 玻尔兹曼机 BM

BM 简介

深度学习模型 DBN 和 DBM 是由限制玻尔兹曼机 RBM 堆积而成的，而 RBM 是在玻尔兹

曼机 BM 的基础上进行改进的，为此，我们先来讨论一下 BM。并且，由于深度学习发展速度非

常快，基本上每天都有新内容，所以 DBN 和 DBM 可能已经被淘汰掉了。关于深度学习模型，

我们只介绍一些有里程碑意义的模型。

模拟退火算法是 1953 年 N.Metropolis 等人在研究二维相变时提出的。1983 年，S.Kirkpatrzck

等用模拟退火设计大规模集成电路 (VLSI)。G.E.Hinton、TJ.Sepjmowski 和 D.H.Ackley 等于 1983

年，借助统计力学的概念和方法，把模拟退火方法引入到 Hopeld 网络中，使 Hopeld 有了随

机性，从而提出了玻尔兹曼机。1984 年 S.Geman 和 D.Geman 给出退火率 T ∝ 1/ log t，但这个

退火过程太慢，因而效率很低，几乎没有太大使用价值。1985 年，Harold Szu 提出了一种快速

模拟退火法，称为柯西机 (Cauchy Machine)，这使得 BM 方法有了应用的可能。从前面优化部

分介绍的模拟退火来看，它相对于普通的爬山法而言，具有随机性，有一定概率跳出局部极小点，

因此，模拟退火法可以看成是“随机梯度下降法”。

前面提到的 BP 网络和 Hopeld 网络用的梯度方向都是使目标函数下降的梯度方向，由

于¬网络中存在输入到输出的非线性映射，从而使网络的误差或能量函数是含有许多极小点的非

线性超平面，即非凸；在算法上，只能按目标函数梯度减小的方向变化，这导致 BP 和 Hopeld

http://www.ma-xy.com 61 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

很有可能陷入局部极小点。为此，我们可以在算法中引入随机梯度方向来克服这一缺陷。随机型

神经网络有以下特点：

1. 各神经元的输入不能决定其输出状态是 0 或者 1，而是决定了输出为 0 或者 1 的概率；

2. 在网络学习阶段，随机型神经网络并不基于某种确定性算法调整网络连接权值，而是按照

某种概率分布进行处理；

3. 在网络运行阶段，随机型神经网络不是按照某种确定性的网络方程进行状态改变，而是按

照某种概率分布决定网络状态的转移。

BM 的网络结构

BM 的网络结构和 Hopeld 网络的结构相似，网络中的 n 个神经元之间相互连接，为双向

连接结构，且每个神经元到自身无反馈 w

= 0。我们可以假设 w

= w

(i, j = 1, 2, . . . , n)。每

个神经元的输出 x

均为 0 或 1，其网络结构如图 (1.29) 所示

图 1.29: BM 网络结构示意图

注：输入层加上输出层为可视层，对自己学习 (自联想) 无输出层，而互联想，有输出层。如

果不考虑层次结构，网络结构如图 (1.29)(b) 所示，共有 n 个神经元，在 t 时刻，网络的状态

为 X(t) = (x

, x

, . . . , x

)。如果考虑层次结构，可将 BM 分为可视层 v 和隐含层 h，设可视层

(visiable) 神经元个数为 n

，隐含层 (hidden) 神经元个数为 n

，则有 n = n

+ n

。隐含层和可

视层神经元状态 v

, h

的状态值为 0 或 1。这里所说的 v

, h

即为 x

。值得一提的是：与 Hopeld

网络不同的是，这里的 v

, h

或者 x

的状态值为随机变量，其输出值



− θ

只是 x

取

值为 0 或 1 的概率，而不是具体的神经元状态，即

P (x

= 1) =



− θ

设 v = (v

, v

, . . . , v

)

∈ {0, 1}

为可视层状态向量，是一随机向量，取值为 0 或 1；

h = (h

, h

, . . . , h

)

∈ {0, 1}

为隐含层状态向量，是一随机向量，取值为 0 或 1；a =

, a

, . . . , a

)

为隐含层偏置向量 (阈值/bias)，a

∈ R；b = (b

, b

, . . . , b

)

为可视层偏

置向量 (阈值/bias)，b

∈ R；神经元 v

和 h

的连接权重为 W

，则 W = ( W

)

×n

∈ R

×n



；



注：x ≜ (v, h)，θ ≜ W ≜ (W, R, L, a, b)。

http://www.ma-xy.com 62 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

神经元 v

与 v

的连接权重为 L

，则 L = (L

)

×n

∈

×n

；神经元 h

与 h

的连接权重为

，则 R = (R

)

∈ R

×n

，且注意：各神经元自身不连接，权重为 0。

上面，给出了 BM 的网络结构，下面，来看一下 BM 的网络输出。在 Hopeld 网络中，神

经元 j 的输出为

= sgn





− θ









但上面说到 BM 的神经元输出值不再是一变量，而是一个随机变量。所以，我们只能给出神

经元 j 取值为 1 的概率。那么，神经元 j 取值为 1 的概率是多少呢？或者说我们如何依据输出

值



−θ

来设定其概率呢？(概率求和需要为 1)，可以借助下面的函数图 (1.30) 进行说明

图 1.30: BM 神经元概率值示意图

神经元 j 取值为 1 的概率为

P (x

= 1) =

1 + e

−s

1 + e

−

(

∑

−θ

)

神经元 j 取值为 0 的概率为

P (x

= 0) = 1 − P (x

= 1) =

−s

1 + e

−s

1 + e

其中：T 为温度参数。可以看出，如果神经元 j 的输出 s

为 0，则 P (x

= 1) = P (x

= 0) = 0.5，

且 s

越大，P (x

= 1) 越大。并且，网络参数 T 会对产生影响：温度 T 越高曲线越平滑，P (x

= 1)

相对于 s

的变化越小，因此，即使神经元 j 的输出 s

有较大的变化，也不会对 P (x

= 1) 产生

很大的影响。并且，当 T → ∞ 时，曲线变为一条恒为 0.5 的直线，P (x

= 0) = P (x

= 1) ，也

就意味着网络中各神经元有更多机会进行状态选择；相反，当 T 越小时，P (x

= 1) 对 s

变化

越敏感，即 s

的一个小变化，P (x

= 1) 也会有很大变化，且当 T → −∞ 时，概率为 1，BM

网络也就变为了 Hopeld 网络。

上面，给出了 BM 网络的输出，下面，我们应该讨论的是：1.BM 网络整体取某一状态的概

率 (联合概率密度)，即 X = (x

, x

, . . . x

)

的概率 P (X = (x

, x

, . . . x

))；2.BM 网络的运行

规则；3.BM 网络的能量函数；4.BM 网络的学习方法，即权重 θ ≜ W ≜ (W, R, L, a, b) 的求解。

BM 网络的运行规则

假设我们已经得到了参数 θ ≜ W ≜ (W, R, L, a, b)，BM 网络的运行规则和 Hopeld 网络相

似，问题是：¬如何确定网络已经稳定？异步工作还是同步工作？即 t 时刻改变几个神经元的

http://www.ma-xy.com 63 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

状态？异步工作是改变一个或部分神经元的状态，同步工作是改变所有神经元的状态。对某个样

本 x

(k = 1, 2, . . . , m) 而言，将 x

输入到 BM 网络中，其异步运行规则如下：

Step1. 初始化。初始温度 T (t = 0) = T

，终止温度 T

min

，参数 θ = W = ( W, R, L, a, b)。

Step2. 在 t 时刻，在温度 T (t) = T

下，从网络中随机挑选一个神经元 j(j = 1, 2, . . . , n)，计算

其输出



− θ

计算神经元 j 的概率值

P (x

= 1) =

1 + e

−s

Step3. 更新网络状态。对第 j 个神经元，按上述概率随机更新神经元 j 的状态，得到 x

(t + 1)；

其余神经元的状态不变，即

(t + 1) = x

(t) i = 1, 2, . . . , n, i = j

Step4. 判断网络在温度 T

下是否达到平衡状态，如果未平衡，则转到 Step2，否则，转到 Step5。

Step5. 终止条件。不终止，则置 t := t + 1，并设置此时的温度 T (t + 1) < T (t)，转到 Step2。

注：降温函数可以使用

T (t)/T

∝ 1/ ln t

T (t)/T

∝ 1/t

即

T (t + 1) = T

/ log(t + 1)

T (t + 1) = T

/(t + 1)

T (t + 1) = λT (t)

网络的能量函数

与 Hopeld 相同，我们也采用能量函数来描述网络状态。定义 BM 网络的能量函数为

(x) = x

W x + θ

如果是 v 和 h，则写为

(v, h) = −v

W h −

Lv −

Rh − v

b − h

由

E = −



i=1



j=1



i=1

http://www.ma-xy.com 64 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

可知，单一神经元 x

的能量 E

为

= −



i=1

+ θ

= −



i=1

+ θ

则 t 时刻到 t + 1 时刻的能量变化为

∆E

= E

(t + 1) −E

(t)

= −

(t + 1) −x

(t)]



i=1

+ [x

(t + 1) −x

(t)]θ

= −

∆x



i=1

+ ∆x

= −∆x





i=1

− θ



∆x



i=1

假设 BM 采用异步操作方式，即每时刻 t 只有一个神经元 j 的状态可能改变，其余神经元

状态不变，则上式 ∆E

可以简写为

∆E

= −∆x





i=1

− θ



= −∆x

为了分析 ∆E

的大小，在 t + 1 时刻，考虑如下三种情况：

1. 若 s

= 0 ，则 ∆E

= 0 ；

2. 若 s

> 0，则 P (x

= 1) > 0.5，即神经元 j 取值为 1 的概率较大。此时可以得到以下结论：

(a) 若 x

(t) = 1 ，则 ∆x

= 0 的概率较大，因此，∆E

= 0 的概率较大；

(b) 若 x

(t) = 0 ，则 ∆x

= 1 的概率较大，因此，∆E

< 0 的概率较大.

3. 若 s

< 0，则 P (x

= 1) < 0.5，即神经元 j 输出为 0 的概率较大，此时可得到以下结论：

(a) 若 x

(t) = 1 ，则 ∆x

= 0 的概率较大，因此，∆E

= 0 的概率较大；

(b) 若 x

(t) = 0 ，则 ∆x

= 1 的概率较大，因此，∆E

< 0 的概率较大.

综上可知，当神经元 j 的状态改变时，其能量函数的变化量 ∆E

⩽ 0 的概率较大。由于神

经元是任意一个神经元，所以网络全局能量的变化来给你 ∆E ⩽ 0 的概率也较大。与 Hopeld

网络不同的是：Hopeld 是确定能使能量下降 (简单看成目标函数)，而 BM 网络只是可能使能

量函数下降，因此，BM 具有跳出局部极小点的能力。

http://www.ma-xy.com 65 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

Boltzmann 分布

从前面的 Hopeld 网络中，我们知道，将一个样本 x

输入网络后，随着时间 t 的不断迭代，

网络最终会收敛到收敛态，称为 x

∗，也称 x

∗ 为 Hopeld 对 x

的记忆，当然，我们会要求 x

∗

和 x

尽可能接近。

现在，在 BM 网络中，我们仍然会有 x

和 x

∗，只不过二者都不再是确定变量，而是随机

变量。也就是说，现在要求得 θ，使 x

, x

∗ 的概率分布尽可能接近。或者从所有样本来说，我

们求使样本出现概率最大的 θ，即 max

P (x

, x

, . . . , x

)，其中：x

为某一样本。在 BM 以及

后面的 RBM 中，我们也可能将 m 个样本 {x

}

k=1

写为 v, h 的形式 {v

}

k=1

。

上面所说的只是对无监督学习而言，如果对于有监督学习，我们可以使 n

= n

，然后用

P (h

, h

, . . . , h

) 表示输出样本 y 的概率。下面，我们先来求出某一样本 x

出现的概率，之后

再求其联合概率分布。样本 x

出现的概率即为 BM 网络处于某一状态的概率，例如：P (x

1, x

= 0 , . . . , x

= 0) 。

假设 BM 在 t 时刻的状态为 X

∈ R

，t + 1 时刻的状态为 X

，并且 BM 采用异步运行方

式，那么有

(1) 如果在 t 时刻，神经元 j 的状态 x

为 1，设此时的能量函数值为 E(X

)；在 t + 1 时刻，神

经元 j 的状态 x

为 0，此时的能量函数值为 E(X

)，那么

∆E = E(X

) − E(X

) = −∆x

= −(0 − 1)s

= s

有

P (x

= 1) =

1 + e

−∆E/T

P (x

= 0) = 1 − P (x

= 1) =

−∆E/T

1 + e

−∆E/T

从而

P (x

= 0)

P (x

= 1)

= e

−∆E/T

−E(X

)/T

−E(X

)/T

由于网络异步运行，因此有

P (X

)

P (X

)

−E(X

)/T

−E(X

)/T

(2) 如果在 t 时刻神经元 j 的状态 x

为 0，能量为 E(X

)，在 t + 1 时刻 x

为 1，能量为 E(X

)，

那么

∆E = E(X

) − E(X

) = −(1 − 0)s

= −s

有

P (x

= 1) =

1 + e

∆

P (x

= 0) = 1 − P (x

= 1) =

∆E/T

1 + e

∆E/T

http://www.ma-xy.com 66 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

从而

P (x

= 0)

P (x

= 1)

−E(X

)/T

−E(X

)/T

由于网络异步运行，因此有

P (X

)

P (X

)

−E(X

)/T

−E(X

)/T

由上述 (1)(2) 可知，BM 的任意两个状态 X

, X

出现的概率 P (X

), P (X

) 与其能量之间

存在一定的关系：某个网络状态对应的能量越低，该状态出现的概率就越大。

事实上，统计力学的相关研究表明：在温度 T ，分子停留在状态 x 的概率满足 Boltzmann

概率分布

P (E = E(x)) =

−E(x)/T ·RH

Z(T )

其中：E(x) 表示状态 x 时的能量，RH > 0 为玻尔兹曼常数，E 表示分子能量的一个随机变量，

Z(T ) 为概率分布的标准化因子 (归一化因子)，忽略 RH，有

Z(T ) =



x∈D

−E(x)

D 为状态 x 的可能取值空间，空间大小为 2

或者 2

×n

。

上面的状态概率分布 P (E = E(x)) 可以记为

(v, h) = P (v, h|θ) = P (v, h; θ) = P

(x) =

Z(T )

−E

(v,h)

从中可以看出，能量 E(x) 越大，则状态 x 的概率值越小。为书写简便，我们默认已经给出网络

参数 θ，所以 P

(v, h) = P (v, h)。

BM 学习方法

上面，我们给出了 BM 网络“输出”某一状态 x

的概率，即样本概率，并且，在前面

的 BM 运行规则和能量函数以及状态概率中都假设已经知道了 BM 网络的权重和偏置等参数

θ ≜ W ≜ (W, R, L, a, b)。下面，我们就要来讨论如何求解参数 θ ≜ W ≜ (W, R, L, a, b)。

我们知道，对于某一个样本 x

而言，其本身有一个概率 P (x

= x)，而将 x

输入到 BM

网络后，又有一个概率，我们自然要在这两个概率上做文章，比如：要求 BM 网络 (概率分布)

来逼近 (近似) 样本的真实分布，甚至还可以从 BM 中生成样本。

设共有 m 个样本 {x

}

k=1

，或者写为 v, h 的形式 {v

}

k=1

，记样本集为 D

= {v

}

k=1

，每

个样本 v

∈ {0, 1}

，例如：样本 1 经过01 编码后是 n

长度的 v

= (0 , 1 . . . , 1, 0)；样本 2 经

过01 编码后是 n

长度的 v

= (1, 1 . . . , 1, 1)。并且，假设各样本独立同分布。下面介绍两种求

解参数的方法：1. K-L 距离最小法 (交叉熵最小)；2. 样本概率最大 (极大似然估计法)。

http://www.ma-xy.com 67 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

方法 1：K-L 距离最小法 Hinton 最初开发 BM 网络时，就是采用的 K-L 最小方法，原文为：

能量函数和样本概率分布为

(v, h) = −v

W h −

Lv −

P (v) =



exp(−E

(v, h))

其中：Z



exp(−E

(v, h))。某一神经元的概率为

p(h

= 1 |θ, h

·j

) = g





m=j

·,m



p(v

= 1 |h, v

·i

) = g





k=i



权重更新公式为

∆W = α



data

[vh

] − E

model

[vh

]



∆L = α



data

[vv

] − E

model

[vv

]



∆R = α



data

[hh

] − E

model

[hh

]



其中：

data

(v, h) = P

data

(v)P

data

(h|v)

data

(v) =



k=1

δ(v − v

)

下面，来对上面的公式进行说明。不考虑偏置 bias，仅就权重 θ ≜ (W, R, L) 来看，对某一

个样本 v

而言

, h

) =

−E

)/T

边缘分布 p(v

) 写为

) =



, h

) =

−E

)/T

其中：v

∈ {0, 1}

是样本，h

∈ {0, 1}

是长度为 n

的任意的 01 值向量 (h 如何确定呢？)；

表示 P

data

，称 p

) 为样本的实际概率。简单理解：样本实际概率就和频数一样，只不过

这里有了具体的“频数”计算公式。如果我们给出了 h 的所有可能 (或者说 h

已知)，那么，我

们只需要将样本 v

(k = 1, 2, . . . , m) 带入上面的计算公式即可 (不是带入到 BM 模型中)。

将 v

输入到 BM 模型中，记由模型生成的概率为 p

−

)，即为 P

model

。我们要求 p

)

和 p

−

) 尽可能接近，用 KL 距离来衡量两个概率分布之间的接近程度，有

G(θ) =



k=1

) ln

)

−

)



k=1

−

) ln

−

)

http://www.ma-xy.com 68 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

其中：G(θ) ⩾ 0，并且，只有在 p

) = p

−

) 时，G(θ) = 0。显然 G 越小，实际概率 (样本

概率)p

) 越接近期望概率 (模型输出概率)p

−

)。因此，BM 模型学习的过程就是使 G 达到

最小的过程。

当然，要注意的是，上面使 G(θ) 最小的过程是在所有样本 D

上进行的，而不是像 SGD

那样一次一个样本 v

。对于 G(θ)，我们已经有了 p

)(p

) 来源于数据集而非模型，就像

数据自身的频率或者经验密度经验分布那样)，下面来看 p

−

)。将 v

输入到 BM 网络后，在

网络运行时有

−

) =



p(v

, h

) =

−E(v

)/T

下面，将 G(θ) 关于 θ ≜ (W, R, L) 求导，有

∂G

∂W

= −



)

−

)

∂p

−

)

∂W

而对 p

−

)，有

∂p

−

)

∂W





−

, h

k,l

− p

−

)



λ,µ

−

, h

λ,µ



其中：s

α,β

为第 i 个神经元的状态值；s

α,β

为第 j 个神经元的状态值，且

∂e

−E(v

)/T

∂W

α,β

−E(v

)/T

于是有

∂G

∂W

= −



)

−

)





−

, h

k,l

− p

−

)



λ,µ

−

, h

λ,µ



由于

, h

) = p

)

−

, h

) = p

−

)

) = p

−

)

所以有

−

, h

)

−

)

= p

, h

) (1.18)

并且，由于



) = 1 (1.19)

http://www.ma-xy.com 69 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

将上式 (1.18) 和式 (1.19) 带入到

∂G

∂W

，有

∂G

∂W

= −





, h

k,l

−



−

, h

λ,µ



= −



− ρ

−



其中：ρ

是样本中两个神经元 i, j 都处于 1 的平均概率；ρ

−

是网络运行中两个神经元 i, j 都处

于 1 的平均概率。

最小化 G 的步骤是：当网络处于 T 温度下的热平衡时 (v

的平稳输出 v

∗ 已经形成)，观

察 ρ

, ρ

−

，计算权重更新方向

∆W

(ρ

− ρ

−

)

并更新权重

:= W

+ ∆W

其中：η 为学习率。更新公式中的

表示连接权重的调整量 ∆W

与 ρ

成正比，即 s

与 s

同时为 1 的数量越大，ρ

越大，∆W

越大，称

为正学习项；相反的，称

−

为反学习

项。下面，我们给出 BM 的算法步骤：

Step1. 初始化。

初始权重 W = (W

)

n×n

, W

∈ [−1, 1], W

= W

。初始温度 T

，终止温度 T

end

，样本数据

集 D

= {v

}

k=1

，网络更新次数 (Gibbs 采样数)d，循环次数 t, t

max

，学习率 η，由样本集 D

计算样本概率 p

)，并令 p

−

) = 0 , k = 1, 2, . . . , m。

Step2. 将某一样本 v

(k = 1, 2, . . . , m) 输入到 BM 可视层。

Step3. 从初始温度 T

开始，按照 BM 运行规则，将网络状态 v

更新至终止温度 T

end

，并输出

平衡状态 h

∗。注：T (t) =

1+ln t

或者 T (t) =

log(t+1)

。

Step4. 在隐含层的平衡状态 h

∗ 下，保持温度 T = T

end

不变，对整个网络状态进行 d 次更新

(一旦达到平衡态，就可以采样 2 个神经元为 1 的概率)，每次更新后，当神经元 i 与 j 同时为 1

时，计算

Count

= Count

+ 1

Step5. 重新从初始温度 T

开始，按照 BM 运行规则，将整个网络(这里没有输入样本) 的状态

更新至终止温度 T

end

下的平衡态 v

∗, k = 1, 2, . . . , m。

Step6. 在网络平衡状态下，保持 T = T

end

不变，对整个网络继续进行 d 次更新 (采样)，每次更

新当神经元 i, j 同时为 1 时，计算

Count

−

= Count

−

+ 1

Step7. 返回 Step2，直到进行 t 次循环，并且，t > n

。

http://www.ma-xy.com 70 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

Step8. 按下式计算 ρ

, ρ

−

(i, j = 1, 2, . . . , n)

Count

−

Count

−

Step9. 更新权重。

:= W

+ ∆W

= W

end

(ρ

− ρ

−

)

Step10. 返回 Step2，直至进行 t

max

次循环。

下面，我们再给出一个更详细的步骤：

Step1. 初始化。

初始权重 W = (W

)

n×n

, W

∈ [−1, 1], W

= W

。初始温度 T

，终止温度 T

end

，样本数据

集 D

= {v

}

k=1

，网络更新次数 (Gibbs 采样数/Markov 链长)d，循环次数 t, t

max

，学习率 η，

由样本集 D

计算样本概率 p

)，并令 p

−

) = 0 , k = 1, 2, . . . , m，容许误差 ε。

Step2. 正阶段：对于一个样本 v

, k = 1, 2, . . . , m，将其输入到 BM 网络，并随机设置其隐含层

神经元状态 h

(当然，如果是有标签样本的话，h

设置为标签状态)。注意：这里的 h

随机开始

要让其达到稳定是耗时的，不如有指导性的设置。

¬在温度 T 下，使网络达到平衡；

置 t := 1 ，挑选隐含层节点 j(j = 1, 2, . . . , n

)，将其状态翻转







1 h

(t − 1) = 0

0 h

(t − 1) = 1

其余神经元状态不变。

®计算翻转后的网络能量变化

E(t − 1) = v

W h(t − 1)

E(t) = v

W h(t)

∆E

= E(t) − E(t − 1)

¯判断神经元 j 的状态是否改变。如果 ∆E

< 0，则状态改变；否则 ∆E

⩾ 0，计算概率

= e

−∆E

/T (t)

，如果 P

> λ，则接受新状态，否则状态不变。

如果隐含层节点为完全考察

(

未遍历

)

，或者状态未稳定，则返回



；否则转到

。当在温度

下稳定时，才进入下一温度。

±终止条件。若 T (t) ⩽ T

end

则终止；否则，令 t := t+1，计算温度 T (t) =

1+ln t

或者

(

) =

log(t+1)

。

Step3. 记录平衡时隐含层神经元状态 h

∗。

Step4. 在隐含层的平衡状态 h

∗ 下，保持温度 T = T

end

不变，对整个网络状态进行 d 次更新

(一旦达到平衡态，就可以采样 2 个神经元为 1 的概率)，每次更新后，当神经元 i 与 j 同时为 1

时，计算

Count

= Count

+ 1

http://www.ma-xy.com 71 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

Step5. 选取新样本 v

，返回 Step2。在遍历所有样本后，计算可视层神经元 v

和隐含层神经元

状态同时为 1 的频率 ρ

Count

i, j = 1, 2, . . . , n

注：仔细观察 td，可以知道吉布斯采样的由来，以及



的求解。

Step6. 负阶段：对虚拟样本 v

(这里的样本数量可以是 m 也可以不是)，随机设置可视层 v 和

隐含层 h 的初始状态 (随机 2 值)。置 t := 1，更新 v, h 的状态，直到网络平衡为止。输出网络

平衡态 v

∗, h

∗。

Step7. 在隐含层的平衡状态 h

∗ 下，保持温度 T = T

end

不变，对整个网络状态进行 d 次更新

(一旦达到平衡态，就可以采样 2 个神经元为 1 的概率)，每次更新后，当神经元 i 与 j 同时为 1

时，计算

Count

−

= Count

−

+ 1

Step8. 选取新样本 v

，返回 Step6。直到遍历所有样本。注意：这里的 Step2 和 Step6 可以合

并。计算可视层神经元 v

和隐含层神经元 h

状态相同的频率 ρ

−

Count

−

Step9. 调整权重

:= W

+ ∆W

= W

(ρ

− ρ

−

)

Step10. 返回 Step2，直到 ∆W

< ε，即 ρ

= ρij

−

相接近时。

注：1.ρ



, h



data



p(h, v)v

；2.d 过程即为 Gibbs 采样过程。

方法 2：极大似然估计法上面求解参数 W 的方法是基于最小化 K-L 距离的，下面介绍参数的

极大似然估计。当前，我们已经讨论过了：把样本 v

(k = 1, 2, . . . , m) 输入到 BM 网络中，当网

络稳定时，会得到其概率

−

) =



−

, h

) =



−E(v

)

现在，我们要求 θ，使样本出现的 (联合) 概率最大

max

L(θ) = P (v

, v

, . . . , v

) =



k=1

p(v

)

由于 max L 与 max ln L 是等价的，有

max

ln L(θ) = log



k=1

p(v

) =



k=1

log p(v

)

http://www.ma-xy.com 72 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

将上式关于 θ 求导，有

∂ ln L(θ)

∂θ



k=1

∂ ln p(v

)

∂θ

所以，我们先来处理单一样本 v

的导数。这里的 p(v

) 可以记为 p

), p(v

|θ) 或者 p(v

; θ)。

下面就来处理

∂ ln p(v

)

∂θ

，由边缘分布，有

ln p(v

) = ln



p(v

, h)

= ln



−E(v

,h)

= ln



−E(v

,h)

− ln Z

有

∂ ln p(v

)

∂θ

∂

∂θ





−E(v

,h)



−

∂

∂θ

ln Z

= −



−

(

)



−E(v

,h)

∂E

(

, h)

∂θ



v,h

−E(v,h)



v,h

−E(v,h)

∂E

(

v, h

)

∂θ

= −



−E(v

,h)



−E(v

,h)

∂E(v

, h)

∂θ



v,h

p(v, h)

∂E(v, h)

∂θ

= −



−E(v

,h)

∑

−E(v

,h)

∂E(v

, h)

∂θ



v,h

p(v, h)

∂E(v, h)

∂θ

= −



−E(v

,h)



−E(v

,h)

∂E(v

, h)

∂θ



v,h

p(v, h)

∂E(v, h)

∂θ

= −



p(v

, h)

p(v

)

∂E(v

, h)

∂θ



v,h

p(v, h)

∂E(v, h)

∂θ

= −



p(h|v

)

∂E(v

, h)

∂θ



v,h

p(v, h)

∂E(v, h)

∂θ

即

∂ ln p(v

)

∂θ

= −



p(h|v

)

∂E(v

, h)

∂θ



v,h

p(v, h)

∂E(v, h)

∂θ

(1.20)

= −E

p(h|v

)



∂E(v

, h)

∂θ



+ E

p(v,h)



∂E(v, h)

∂θ



= −



∂E(v

, h)

∂θ



p(h|v

)



∂E(v, h)

∂θ



p(v,h)

http://www.ma-xy.com 73 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

这里，用极大似然求解的梯度与 KL 距离求解的梯度一致，就像前面的 BM 学习算法中描述

的那样：p(h|v

) 部分是我们从样本 v

出发，求解的 h 的状态；而 p(h, v) 部分是随机出发，求

出的整个网络 v, h 的状态。我们将其改写为

p(h|v

)



∂E(v

, h)

∂θ



= ρ

p(v,h)



∂E(v, h)

∂θ



= ρ

−

我们先来看

∂E(v, h)

∂θ

上式的取值取决于能量函数 E(v, h) 的形式。一般而言，E(v, h) 有以下几种形式

E(v, h) = −v

W h −

Lv −

Rh − v

b − h

E(v, h) = −v

W h −

Lv −

E(v, h) = −v

W h − v

b − h

a 限制玻尔兹曼机

E(v, h) = −v

W h −

Lv − v

b − h

a 半限制玻尔兹曼机

前面，我们说过不讨论阈值 a, b，所以，这里采用第二种 E(v, h)，它的导数为

∂E

∂W

= vh

∂E

∂L

= vv

∂E

∂R

= hh

下面来讨论 (1.20) 式中等式右边的第二项



v,h

p(v, h)

∂E(v, h)

∂θ



p(v)p(h|v)

∂E

∂θ



p(v)



p(h|v)

∂E

∂θ

因此，只要知道



p(h|v) 即可。其中：p(h|v) 是隐含层神经元 h = (h

, h

, . . . , h

) 的条件联

合概率分布，我们自然会想：联合概率分布是否为各边缘分布的乘积？

p(h|v) =



j=1

p(h

|v)

可惜的是，只有在各随机变量 (隐含层神经元) 相互独立的时候，联合概率才等于各概率的乘积，

也就是如果隐含层 h 神经元之间不存在互连接 (h

, h

无关)，则上式成立。为了使用上式，我们

可以构建如下图 (1.31) 的限制玻尔兹曼机 RBM，这个留在后面介绍。

http://www.ma-xy.com 74 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

图 1.31: RBM 网络结构图

回到我们的问题当中，第一个数据期望 ⟨·⟩

data

是易求的，⟨·⟩

data

是 v

, h

同时取 1 的概率；

而 ⟨·⟩

model

是以最终模型 (稳定时的模型) 定义的分布来求的，当隐含层神经元未知时，⟨·⟩

model

要花费指数时间来精确计算，我们不得不寻找其近似方法。

典型 BM 学习方法主要有：吉布斯采样 (Gibbs sampleing)、平行回火 (paralled tem-pering)、

变分近似法 (Variational approach)、随机近似法 (stochastic approximation procedure, SAP)、

对比散度算法 (contrastive divergence, KCD)、持续对比散度 (persistant contrastive dirergance,

PCD) 和快速持续对比散度 (fast persistent contrastive dirergence, FPCD)。

Gibbs sampling 就是前面在 BM 学习算法中用到的方法。吉布斯采样法是马尔科夫链算法的

一种，给定一个 n 维随机向量 x = (x

, x

)，无法求得 x 的联合概率分布 p(x)，但是知道给

定 x 的部分分量后，x

的条件概率分布 p(x

−i

)，其中：x

−i

表示 x 中不含 x

的部分。可以从

x 的任意状态 (即样本状态) 开始，利用条件分布 p(x

−i

) 迭代并对其分量依次采样。随着采样

次数的增加，随机变量 x

(k), x

(k), . . . , x

(k) 的概率分布将以 k 的几何级数的速度收敛于 x 的

联合概率分布 p(x)。在 BM 的每个迭代过程中，设置一个马尔科夫链，并将其运行到平衡状态，

用马尔科夫链近似期望值 E

model

[·]。这个算法的优点是通用性较好，缺点是计算量较高，运行缓

慢，在每次迭代过程中都要等到每个马尔科夫链达到平稳分布 (平稳状态)。

随机近似 SAP 1992.Neal4提出一种新的 BM 训练算法。在前面的 BM 学习算法步骤中，我们

曾提到过，h 从一个随机状态开始，要花费很长时间才能达到热平衡，那么为什么不给一个近似

平稳的状态呢？例如：我们可以选用上一个样本的平衡作为开始。我们称这种预先存储好的近似

平衡的状态为 particle(粒子，是一个向量)，可以在正负阶段使用粒子，在正阶段，会夹逼出一个

数据向量，而负阶段就不需要夹逼任何东西。

SAP 方法属于广义 Robbins-Monro 式随机近似法，用于近似期望值 E

model

[·]。SAP 学习过

程可行的主要原因是：当学习率 η 相对于马尔科夫链的混合速率变得足够小时，持续马尔科夫链

将会一直接近平稳分布，对于成功的参数更新，从持续马尔科夫链采集的数据将会高度关联。

给定一个独立同分布的样本集 D

= {x

}

k=1

，考虑含有充分统计量的样本分布

p(x|θ) =

exp(θ

ϕ(x))

上式取对数，并关于 θ 求导，有

∂ log p(θ|x)

∂θ



n=1

ϕ(x

) − E

model

[ϕ(x)] = S(θ)

http://www.ma-xy.com 75 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

算法 1 A Stochastic Approximation Procedure for Estimating the BM(SAP)

1: Give a data set

{

}

k=1

; Randomly initialize

and

sample particles

0,M

{˜x

0,1

, . . . , ˜x

0,M

}

2: for t = 0 : T (number of interations) do

3: for i = 1 : M (number of parallel Markov chains) do

4: Sample ˜x

t+1,i

,given ˜x

t,i

using transition operator T

(˜x

t+1,i

← ˜x

t,i

)

5: end for

6: update

t+1

= θ

+ α





n=1

ϕ(x

) −



m=1

ϕ(˜x

t+1,m

)



= θ

+ α

S(θ

) + α



model

[ϕ(x)] −



m=1

ϕ(˜x

t+1,m

)



= θ

+ α

S(θ

) + α

t+1

注：ensure almost sure envergence to aon as ymptotically stable point of

θ = S(θ), require



∞

t=0

= ∞,



∞

t=0

< ∞.

7: Decrease α

8: end for

假设 θ

和 ˜x

是当前时刻的参数和状态，则 θ

, ˜x

按下列算法 (1) 更新。其中：用点估计 ϕ(˜x

t+1

)

来估计 E

model

[ϕ(x)]。

变分推断在变分学习中，对每个训练样本可视层向量 v，用近似后验分布 q(h|v, µ) 替换隐单元

向量上的真实后验分布 p(h|v, θ)。BM 模型的对数似然函数有下面形式的变分下界

ln p(v, θ) ⩾



q(h

|v, µ) ln p(v, h, θ) + H(q)

= ln p(v, θ) − KL(q(h|v, µ)||p(v|h, θ))

其中：H(·) 为熵。变分近似法能够很好的估计 E

data

[·]，而不能用于估计 E

model

[·]。变分近似法

的伪代码如下 (2)

Neal 的方法在全批量上是适用的，而在 mini batch 上比较困难，因为我们用到了同样的数

据向量，会使得权重更新有很多相同。所以，针对数据向量而存储的粒子将不再是在热平衡 (平

衡态) 附近了。假设当一个数据向量 v 被夹逼的时候，这些好的解释 (也就是隐含层状态) 扮演

着那个数据向量的解释是单峰的，即对于一个数据向量 v，没有 2 个不同的解释 h。基于此，我

们简记一下平均场逼近法：

http://www.ma-xy.com 76 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

算法 2 A Variational Approach for Estimating the BM(SAP)

1: Given: a data set D

= {v

}

k=1

; Randomly initialize θ and M sample particles

{˜v

0,1

}, . . . , {˜v

0,M

}。

2: for t = 0 : T (number of interations) do

3: // variational inference(变分推断：正阶段)2

4: for each training example v

, n = 1, 2, . . . , N do

5: Randomly initialine µ and run mean - eld updates(平均场) until convergence

6: µ

← g(



m=j

)

7: Set µ

= µ

8: end for

9: // Stochastic Appkroximation(随机近似：负阶段)

10: for each sample m = 1 : M(number of persistent Markov Chains) do

11: Sample (˜v

t+1,m

), given (˜v

t,m

) by using a Gibbs sample in

p(h

= 1 |v, h

−j

) = g





m=j



p(v

= 1 |h, v

−i

) = g





k=i



12: end for

13: // Parameter update

t+1

← W

+ α





n=1

(µ

)

−



m=1

˜v

t+1,m

)



t+1

← R

+ α



(µ

)

−



m=1

t+1,m

)



t+1

← L

+ α



)

−



m=1

˜v

t+1,m

(˜v

t+1,m

)



14: Decrease α

15: end for

http://www.ma-xy.com 77 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

(1) 如果我们想得到正确统计数据，需要随机循环来更新神经元状态

= p(s

= 1) = σ







(2) 如果我们不打算保持 i 的二值状态 (我们说神经元 i 是随机的，值仅有 0 和 1)，而保持一个

实值状态，可以用

t+1

= σ







用一个概率实值来代替原来的随机二值，但这样并不是很好，因为随机二值是在非线性函数内部

的。如果是一条线性函数，那没事。但因为是 sigmoid 非线性函数，每当我们替代时，就得不到

正确答案。

(3) 为了解决 biphasic oscillations, 我们采用 damped mean eld(和动量 moment 相似)

t+1

= λp

+ (1 − λ)σ







1.4.6 限制玻尔兹曼机 RBM

RBM 网络结构

在分析 BM 的极大似然目标的梯度时，我们发现，如果可视层、隐含层层内神经元之间无连

接的时候，可能会有更好的计算性质：联合概率等于边缘概率乘积，即

(h|v) =



j=1

|v)

为此，我们有半限制玻尔兹曼机和限制玻尔兹曼机，如图 (1.32) 所示

(a) 半限制 (b) 限制

图 1.32: 半限制和限制玻尔兹曼机网络结构图

关于 v, h, n

, n

, a, b, W, L 的符号说明如前所述，这里不再重述。对于 (半) 限制玻尔兹曼机，

我们可以写出其能量函数 E(v, h)

E(v, h) = −v

W h −

Lv − h

a − v

E(v, h) = −v

W h −

http://www.ma-xy.com 78 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

下面，我们仅讨论限制玻尔兹曼机 RBM。RBM 处于某一状态 (v, h) 的概率为

p(v, h) =

−E(v,h)

其中：Z 为归一化因子，Z =



−E(v,h)

包含 2

×n

项求和。RBM 取值某一样本 v

的概

率为

p(v

) =



p(v

, h) =



−E(v

,h)

用极大似然估计法来估计参数 θ，求 θ 使样本的联合概率密度 (似然函数) 最大，有

max

W,a,b

L(W, a, b) = P (v

, v

, . . . , v

) =



k=1

p(v

)

取对数，有

max

W,a,b

ln L(W, a, b) =



k=1

log p(v

)

将 ln L(W, a, b) 关于参数 θ ≜ (W, a, b) 求导，有

∂ ln L

∂θ



k=1

∂ ln p(v

)

∂θ

而

∂ ln p(v

)

∂θ

= −



p(h|v

)

∂E(v

, h)

∂θ



v,h

p(v, h)

∂E(v, h)

∂θ

(1.21)

= −E

p(h|v

)



∂E(v

, h)

∂θ



+ E

p(v,h)



∂E(v, h)

∂θ



下面，我们来分析 (1.21) 式右边第二项



v,h

p(v, h)

∂E(v,h)

∂θ



v,h

p(v, h)

∂E(v, h)

∂θ



p(v)p(h|v)

∂E

∂θ



p(v)



p(h|v)

∂E

∂θ

因此，只要求出



p(h|v) 即可，即 p(h|v)。前面我们提到过，只要隐含层层内各神经元之间不

连接 (即相互独立)，则有

p(h|v) =



j=1

p(h

|v)

http://www.ma-xy.com 79 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

并且，对 RBM 有 (在半限制玻尔兹曼机则不成立)

p(h

|v, h

−j

) = p(h

|v)

同理，在 RBM 中

p(v|h) =



i=1

p(v

|h)

并且如果设置激励函数/传递函数为 sigmoid：p(v

= 1 |h) = σ(b

+ W

h)，则有

p(v|h) =



i=1

p(v

|h) =



i=1

σ(b

+ W

我们将 θ 还原为 (W, a, b)，于是有下面的关于 W

, a

, b

的导数情况

(1) 关于 W

的导数



p(h|v)

∂E

∂W





i=1

p(h

|v)

∂E

∂W



p(h

|v)p(h

−i

|v)

∂E

∂W

∂E

∂W

=−h

========== −



p(h

|v)p(h

−i

|v)h

= −



−i

p(h

|v)p(h

−i

|v)h

= −



p(h

|v)h



−i

p(h

−

|v)

∑

−i

p(h

−i

|v)=1

============ −



p(h

|v)h

= − [p(h

= 0 |v) · 0 ·v

+ p(h

= 1 |v) · 1 ·v

]

= − p(h

= 1 |v)v

(2) 关于 b

的导数



p(h|v)

∂E

∂b

= −



p(h|v)v

= v

其中：

∂E

∂b

= −v

，



p(h|v) = 1。

http://www.ma-xy.com 80 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

(3) 关于 a

的导数 (类似于 W

的情况)



p(h|v)

∂E

∂a

= − p(h

= 1 |v)

对于 (1.21) 式，我们已经求出等号右边第二项，于是有

∂ ln p(v

)

∂W

= −



p(h|v

)

∂E(v

, h)

∂W



v,h

p(v, h)

∂E(v, h)

∂W

= p(h

= 1 |v

−



p(v)p(h

= 1 |v)v

∂ ln p(v

)

∂b

= v

−



p(v)v

∂ ln p(v

)

∂a

= p(h

= 1 |v) −



p(v)p(h

= 1 |v)

其中：

p(h

= 1 |v, h

−j

) = p(h

= 1 |v) = σ(a

+ v

)

表示权重矩阵 W 的第 j 列，可写为 W

, W

·j

或者 W

:,j

。

注在 BM 中，已经说明了 p(x

= 1) = σ(



+ θ

)。这里，我们再用另一种方法推导。

要求 p(h

= 1 |v)，令 h

−j

= ( h

, h

, . . . , h

k−1

, h

k+1

, . . . , h

)

，并令

(v) = b



i=1

β(v, h

−j

) =



i=1



k=j



i=1



k=j

E(v, h) = −β(v, h

−j

) − h

−j

(v)

http://www.ma-xy.com 81 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

于是有

p(h

= 1 |v) = p(h

= 1 |h

−j

, v)

p(h

= 1 |h

−j

, v)

p(h

−j

, v)

p(h

= 1 , h

−j

, v)

p(h

= 1 , h

−j

, v) + p(h

= 0 , h

−j

, v)

−E(h

=1,h

−j

,v)

−E(h

=1,h

−j

,v)

−E(h

=0,h

−j

,v)

1 + e

−E(h

=0,h

−j

,v)+E(h

=1,h

−j

,v)

[β(v,h

−j

,v)+0·α

(v)]+[−β(v,h

−j

)−1·α

(v)]

−α

(v)

= sigmoid(α

(v))

= sigmoid





i=1



= σ





i=1



□

由

∂ ln L

∂θ



k=1

ln p(v

)

∂θ

得到 m 个样本的导数 (不仅可以使用一个样本、m 个样本，还可以使用批量样本 mini batch)，

为

∂ ln L

∂W



k=1



p(h

= 1 |v

−



p(v)p(h

= 1 |v)v



∂ ln L

∂b





−



p(v)v



∂ ln L

∂a



k=1



p(h

= 1 |v) −



p(v)p(h

= 1 |v)



最终，有参数的更新公式

θ := θ + η∆θ

RBM 学习算法

RBM 模型可以使用前面 BM 的 Gibbs simple、变分近似法以及随机逼近 SAP 等方法进行

求解。G.E.Hinton 于 2002 年提出一种更离散的算法：k-CD(Contrastive Divergence)，在 Hinton

http://www.ma-xy.com 82 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

的个人主页上可以找到相应的 M 文件。在 k-CD 之后，又相继出现了持续对比散度 PCD 以及

快速持续对比散度 FPCD 等改进算法。下面，我们主要介绍 CD 算法和 PCD 算法。

k-CD 算法通过上面的分析我们知道，权重 W

的更新公式为

∂ ln L

∂W

= −





data

−





model



其中：⟨·⟩

data

和 ⟨·⟩

model

分别是从数据和最终模型中估计 · 的期望值。第一个期望





data

是

样本数据中可视层 v

和隐含层 h

同时为 1 的频率，而





model

是以最终模型定义的分布来

求得的频率。在吉布斯采用中，用





∞

来近似





model

，然而，运行很多步 (d 次) 吉布

斯采样器是低效的，为此，我们只运行 1 步 (k 步) 吉布斯采样，用一个非常粗略的





来估

计





modal





model

≈





= v

然而，





具有很大的方差，为了减小方差，可以用下面的方法来估计





model

∼ p(h, v

)

= E(v|h

) = p(v|h

)

= E(h|v

) = p(h|v

)

其中：∼ 表示采样，v

为一个样本。如果使用 N 步对比散度 (N 通常较小)，生成可视层向量的

时候，都可以使用期望值，需要隐含层向量时，除了最后一次使用期望向量外，都可以使用采样

技术。N-CD 算法的伪代码如下 (3)

PCD 算法 Tideman 提出 PCD 算法，弥补了 CD 算法无法极大化似然函数的缺陷。大量实验

表明，PCD 算法训练的 RBM 具有更好的学习能力。PCD 算法从持续马尔科夫链得到负阶段样

本来近似梯度。令 t 步的持续马尔科夫链为 v

，梯度的更新规则为

∆θ = η



E(vh

) − E(˜v

t+k

)



其中：˜v

t+k

是从状态 ˜v 开始进行 k 个持续马尔科夫链步骤得到的样本。PCD 伪代码如下

(4)

http://www.ma-xy.com 83 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

算法 3 N - CD for RBM

1: 初始化：样本集 D

= {v

}

k=1

，N，初始权重 W

, a

, b

，容许误差 ε，学习率 η。

2: while 未达到停止准则 do

3: // 停止准则可以是最大迭代次数或者梯度 ∆W < ε。

4: 随机挑选 M

个样本的小批量 O =



(1)

, v

(2)

, . . . , v

)



，进行如下计算

∆W ←



t=1

(t)

(t)T

∆b ←



t=1

(t)

∆a ←



t=1

(t)

5: for t = 1 to M

6: ˜v

(t)

← v

(t)

7: end for

8: for n ← 0; n < N; n ← n + 1 do

9: for t = 1 to M

10:

(t)

sampled from





+ ˜v

(t)T



11: ˜v

(t)

sampled from



j=1



+ W

(t)



12: end for

13: end for

14: 计算

(t)

← σ



a + ˜v

(t)T



∆W ← ∆W −



t=1

˜v

(t)

(t)T

∆

←

∆

−



t=1

(t)

∆a ← ∆a −



t=1

(t)

15: 更新权重

W ← W + η∆W

b ← b + η∆b

a ← a + η∆a

16: end while

17: 输出：W, a, b.

http://www.ma-xy.com 84 http://www.ma-xy.com

http://www.ma-xy.com

第一章神经网络 1.4 反馈型神经网络

算法 4 PCD for RBM

1: 初始化：样本集 D

= {v

}

k=1

，N ，初始权重 W

, a

, b

，容许误差 ε，学习率 η，Gibbs steps

N，初始虚拟样本 {˜v

}

k=1

。

2: while 未达到停止准则 do

3: // 停止准则可以是最大迭代次数或者梯度 ∆W < ε。

4: 从样本集 D

中随机挑选 M

个样本的小批量 O =



(1)

, v

(2)

, . . . , v

)



。进行如下计算

∆W ←



t=1

(t)

∆b ←



t=1

(t)

∆a ←



t=1

(t)

5: for n ← 0; n < N; n ← n + 1 do

6: for t = 1 to M

(t)

sampled from



j=1



+ ˜v

(t)T



8: ˜v

(t)

sampled from



j=1



+ W

(t)



9: end for

10: end for

11: 计算

∆W ← ∆W −



t=1

˜v

(t)

(t)T

∆b ← ∆b −



t=1

˜v

(t)

∆a ← ∆a −



t=1

(t)

12: 更新权重

W ← W + η∆W

b ← b + η∆b

a ← a + η∆a

13: end while

14: 输出：W, a, b.

http://www.ma-xy.com 85 http://www.ma-xy.com

http://www.ma-xy.com

1.4 反馈型神经网络第一章神经网络

http://www.ma-xy.com 86 http://www.ma-xy.com

http://www.ma-xy.com

参考文献

[1] Kaiming He. Delving deeo into rectier:surpassing human-level performance on imagenet

classication. 2005.

[2] Jorden.M. An introduntion to variaational methods for graphical models. 1999.

[3] Krizhershy. Imagenet classication with deep convolutional neural networks. 2005.

[4] Neal. Conectionist learning of bm. 1992.