神经网络

发表于 21-08-2020 更新于 02-02-2023 分类于机器学习

感知机

1943年，心理学家W.S.McCulloch和数理逻辑学家W.Pitts基于神经元的生理特征，建立了单个神经元的数学模型（MP模型）

实际上没啥依据

1957年，Frank Rosenblatt从纯数学的度重新考察这一模型，指出能够从一些输入输出对中通过学习算法获得权重 $\boldsymbol{w}$ 和 $b$ 。（这被认为是第一个机器学习算法，SVM是90年代的算法）

问题：给定一些输入输出对 $(\boldsymbol{x},y)$ ，其中 $y=\pm 1$ ，求一个函数，使： $f\left( \boldsymbol{x} \right) =y$

感知机算法：设定 $f\left( \boldsymbol{x} \right) =sign\left( \boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b \right)$ ，从一堆输入输出中自动学习，获得权重 $\boldsymbol{w}$ 和 $b$ 。

感知器算法（Perceptron Algorithm）:

对于样本数据 $(\boldsymbol{x},y)$

随机选取 $\boldsymbol{w}$ 和 $b$
取一个训练样本 $\left( \boldsymbol{x_i},y_i \right)$ $(x_{i}, y_{i})$ ，
- 若 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x_i}+b>0$ 且 $y_i=-1$ ，则： $\boldsymbol{w}=\boldsymbol{w}-\boldsymbol{x_i},b=b-1$
- 若 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x_i}+b<0$ 且 $y_i=+1$ ，则： $\boldsymbol{w}=\boldsymbol{w}+\boldsymbol{x_i},b=b+1$
再取另外一个 $\left( \boldsymbol{x_i},y_i \right)$ ，回到（2）
终止条件：直到所有输入和输出对都不满足（2）中的任意一条，退出循环

关于调整 $\boldsymbol{w}$ 和 $b$ 的一点点直观的解释：（和梯度下降法推导出来的不同，这里是原论文的方法，比较naive）

若 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b>0$ 且 $y=-1$ ，则： $\boldsymbol{w}=\boldsymbol{w}-\boldsymbol{x},b=b-1$ ，于是有：
$\boldsymbol{w}_{\text{新}}^{T}\boldsymbol{x}+b_{\text{新}}=\left( \boldsymbol{w}-\boldsymbol{x} \right) ^T\boldsymbol{x}+b-1=\left( \boldsymbol{w}^T\boldsymbol{x}+b \right) -\left( \lVert \boldsymbol{x} \rVert ^2+1 \right)$
$\left( \lVert \boldsymbol{x} \rVert ^2+1 \right)$ 是大于1的正数，它会把 $\boldsymbol{w}^T\boldsymbol{x}+b$ 往负的方向调整。
$\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b<0$ 时同理

Frank Rosenblatt从数学上证明了，若数据集线性可分，那么以上的算法一定会收敛，下图是感知机在二维特征空间画出的一条直线

注意，感知机画出的直线与SVM有很大不同。感知机画出的直线只是做到了划分正负样本，而没有像SVM那样有最大的margin（毕竟SVM是90年代的东西，感知机早了将近半个世纪）

感知机算法收敛定理

刚刚我们提到了，Frank Rosenblatt从数学上证明了，若数据集线性可分，那么感知机算法一定会收敛。下面我们加以证明：

首先，为下面证明过程书写方便，

定义增广矩阵 $\boldsymbol{X}$ ：

若 $y=+1$ ，则 $\boldsymbol{X}=\left[ \begin{array}{c} \boldsymbol{x}\\ 1\\ \end{array} \right]$
若 $y=-1$ ，则 $\boldsymbol{X}=\left[ \begin{array}{c} -\boldsymbol{x}\\ -1\\ \end{array} \right]$

定义增广矩阵 $\boldsymbol{W}=\left[ \begin{array}{c} \boldsymbol{w}\\ b\\ \end{array} \right]$

然后我们重写感知机算法：

对于样本数据 $\boldsymbol{X}$

随机选取 $\boldsymbol{W}$
取一个训练样本 $\boldsymbol{X_i}$ $X_{i}$
- 若 $\boldsymbol{W}^{\boldsymbol{T}}\boldsymbol{X_i}<0$ 且 $y_i=-1$ ，则： $\boldsymbol{W}=\boldsymbol{W}+\boldsymbol{X_i}$
再取另外一个 $\boldsymbol{X_i}$ ，回到（2）
终止条件：直到所有输入和输出对都不满足（2）中的任意一条，退出循环

感知机算法收敛定理：

若样本数据集 $\left\{ \boldsymbol{X}_i \right\} _{i\sim N}$ 线性可分，即 $\exists \boldsymbol{W}_{opt}$ ，使

$\boldsymbol{W}_{opt}^{T}\boldsymbol{X}_i>0 \left( i=1\sim N \right)$

则利用上述感知机算法，经过有限步后，得到一个 $\boldsymbol{W}$ ，使

$\boldsymbol{W}^{T}\boldsymbol{X}_i>0 \left( i=1\sim N \right)$

proof：不失一般性，设 $\lVert \boldsymbol{W}_{opt} \rVert =1$ ，假设第k步时的 $\boldsymbol{W}$ 是 $\boldsymbol{W}(k)$ ，且有一个 $\boldsymbol{X_i}$ 使得 $\boldsymbol{W}(k)^{\boldsymbol{T}}\boldsymbol{X_i}<0$ 。根据感知机算法可以推导出：

$\begin{aligned} &\boldsymbol{W}\left( k+1 \right) =\boldsymbol{W}\left( k \right) +\boldsymbol{X}_{\boldsymbol{i}}\rightarrow \lVert \boldsymbol{W}\left( k+1 \right) -a\boldsymbol{W}_{opt} \rVert ^2=\lVert \boldsymbol{W}\left( k \right) -a\boldsymbol{W}_{opt}+\boldsymbol{X}_{\boldsymbol{i}} \rVert ^2 \\ &\lVert \boldsymbol{W}\left( k \right) -a\boldsymbol{W}_{opt}+\boldsymbol{X}_{\boldsymbol{i}} \rVert ^2=\lVert \boldsymbol{W}\left( k \right) -a\boldsymbol{W}_{opt} \rVert ^2+\lVert \boldsymbol{X}_{\boldsymbol{i}} \rVert ^2+2\boldsymbol{W}\left( k \right) ^T\boldsymbol{X}_{\boldsymbol{i}}-2a\boldsymbol{W}_{opt}^{T}\boldsymbol{X}_i \end{aligned}$

注意到 $\boldsymbol{W}\left( k \right) ^T\boldsymbol{X}_{\boldsymbol{i}}<0$ 以及 $\boldsymbol{W}_{opt}^{T}\boldsymbol{X}_i>0$ ，则一定可以取很大的 $a$ ，使得

$\lVert \boldsymbol{W}\left( k+1 \right) -a\boldsymbol{W}_{opt} \rVert ^2<\lVert \boldsymbol{W}\left( k \right) -a\boldsymbol{W}_{opt} \rVert ^2$

定义： $\beta =\underset{i=1\sim N}{\max}\left\{ \lVert \boldsymbol{X}_i \rVert \right\} , \gamma =\underset{i=1\sim N}{\min}\left\{ \boldsymbol{W}_{opt}^{T}\boldsymbol{X}_i \right\}$ ，取 $a=\frac{\beta ^2+1}{2\gamma}$ ，则 $\lVert \boldsymbol{W}\left( k+1 \right) -a\boldsymbol{W}_{opt} \rVert ^2<\lVert \boldsymbol{W}\left( k \right) -a\boldsymbol{W}_{opt} \rVert ^2-1$

取 $D=\lVert \boldsymbol{W}\left( 0 \right) -a\boldsymbol{W}_{opt} \rVert$ ，则至多经过 $D^2$ 步， $\boldsymbol{W}$ 将会收敛至 $a\boldsymbol{W}_{opt}$

注意是在条件 $\boldsymbol{W}(k)^{\boldsymbol{T}}\boldsymbol{X_i}<0$ 下，才有 $\boldsymbol{W}$ 将会收敛至 $a\boldsymbol{W}_{opt}$ ，而通常情况下这个条件很快就会消失。这个证明的意思是，若数据线性可分，并且很难线性划分， $\boldsymbol{W}_{opt}$ 几乎是唯一划分的选择，那么感知机最终也会收敛到 $\boldsymbol{W}_{opt}$ 这个决策平面

多层神经网络

1969年，Minsky指出了感知机没办法处理非线性可分的数据，在日常生活中很多分类问题是非线性的，人工智能进入了第一次冬天。

在80年代，人们创造了多层神经网络（Multiple Layer Neural Networks），从而可以实现对非线性可分数据集的分类，人工智能从新复苏。

下面是一个两层神经网络的例子：

1590654191025

若 $\varphi\left( \cdot \right)$ 为线性函数，则多层神经网络和单层没有区别

定理：当 $\varphi\left( x \right)=u(x)$ （即阶跃函数）时，三层网络可以模拟任意决策面

反向传播算法

反向传播算法（Back Propogation Algorithm）：从后往前计算各个参数的偏导数，然后使用梯度下降法对模型进行训练，最终达到收敛。

以上图为例：

首先定义误差函数： $E=\frac{1}{2}\left( y-Y \right) ^2$ ，其中 $y$ 为前向传播计算出的模型输出， $Y$ 为数据标签，优化目标为最小化 $E$

模型中代求的偏导数为：

$\begin{aligned} &\frac{\partial E}{\partial w_1}=\frac{dE}{dy}\frac{\partial y}{\partial w_1}=\left( y-Y \right) z_1 \\ &\frac{\partial E}{\partial w_2}=\frac{dE}{dy}\frac{\partial y}{\partial w_2}=\left( y-Y \right) z_2 \\ &\frac{\partial E}{\partial w_{11}}=\frac{dE}{dy}\frac{\partial y}{\partial z_1}\frac{dz_1}{da_1}\frac{\partial a_1}{\partial \omega _{11}}=\left( y-Y \right) \omega _1\varphi '\left( a_1 \right) x_1 \\ &\frac{\partial E}{\partial w_{12}}=\frac{dE}{dy}\frac{\partial y}{\partial z_1}\frac{dz_1}{da_1}\frac{\partial a_1}{\partial \omega _{12}}=\left( y-Y \right) \omega _1\varphi '\left( a_1 \right) x_2 \\ &\frac{\partial E}{\partial w_{21}}=\frac{dE}{dy}\frac{\partial y}{\partial z_2}\frac{dz_2}{da_2}\frac{\partial a_2}{\partial \omega _{21}}=\left( y-Y \right) \omega _2\varphi '\left( a_2 \right) x_1 \\ &\frac{\partial E}{\partial w_{22}}=\frac{dE}{dy}\frac{\partial y}{\partial z_2}\frac{dz_2}{da_2}\frac{\partial a_2}{\partial \omega _{22}}=\left( y-Y \right) \omega _2\varphi '\left( a_2 \right) x_2 \\ &\frac{\partial E}{\partial b_1}=\frac{dE}{dy}\frac{\partial y}{\partial z_1}\frac{dz_1}{da_1}\frac{\partial a_1}{\partial b_1}=\left( y-Y \right) \omega _1\varphi '\left( a_1 \right) \\ &\frac{\partial E}{\partial b_2}=\frac{dE}{dy}\frac{\partial y}{\partial z_2}\frac{dz_2}{da_2}\frac{\partial a_2}{\partial b_2}=\left( y-Y \right) \omega _2\varphi '\left( a_2 \right) \\ &\frac{\partial E}{\partial b_3}=\frac{dE}{dy}\frac{\partial y}{\partial b_3}=\left( y-Y \right) \end{aligned}$

上面是一个小例子以帮助理解。

下面我们对反向传播算法进行向量化，并得到他的一般形式：

首先给出神经网络的向量化数学表达式

1590670753678

这是神经网络的第一层，记输入为 $\boldsymbol{x}$ ， $\boldsymbol{x}$ 是一个 $N\times 1$ 向量， $N$ 是输入特征的维数。

$\boldsymbol{w}^{\left( 1 \right)}$ 为第一层的参数矩阵：

$\boldsymbol{w}^{\left( 1 \right)}=\left[ \begin{matrix} w_{11}^{\left( 1 \right)}& w_{12}^{\left( 1 \right)}& \cdots& w_{1N}^{\left( 1 \right)}\\ w_{21}^{\left( 1 \right)}& w_{22}^{\left( 1 \right)}& \cdots& w_{2N}^{\left( 1 \right)}\\ \vdots& & & \vdots\\ w_{M1}^{\left( 1 \right)}& w_{M2}^{\left( 1 \right)}& \cdots& w_{MN}^{\left( 1 \right)}\\ \end{matrix} \right]$

则有：

$\boldsymbol{x}\Rightarrow \boldsymbol{w}^{\left( 1 \right)}\boldsymbol{x}+\boldsymbol{b}^{\left( 1 \right)}=\boldsymbol{z}^{\left( 1 \right)}\xrightarrow{\varphi}\boldsymbol{a}^{\left( 1 \right)}=\varphi \left( \boldsymbol{z}^{\left( 1 \right)} \right)$

关于维数和上下标的说明： $\boldsymbol{b}$ ， $\boldsymbol{z}$ 和 $\boldsymbol{a}$ 都是列向量，维数取决于这一层的行数，比如上图第一层有M个神经元，则 $\boldsymbol{b}^{(1)}$ ， $\boldsymbol{z}^{(1)}$ 和 $\boldsymbol{a}^{(1)}$ 都是M维列向量；上标表示第几层，下标表示连接关系。例如 $\boldsymbol{w}^{\left( k \right)}_{ij}$ 表示第 $(k-1)$ 层的第 $j$ 个输出到第 $(k)$ 层的第 $i$ 个神经元的参数。

PS： $\boldsymbol{x}=\boldsymbol{a}^{\left( 0 \right)}$

那么多层神经网络就是上面的重复级联，每一层的行数不一定相等。为方便表示，我们默认一共有 $l$ 层，则：

$\begin{aligned} \boldsymbol{x}&\Rightarrow \boldsymbol{w}^{\left( 1 \right)}\boldsymbol{x}+\boldsymbol{b}^{\left( 1 \right)}=\boldsymbol{z}^{\left( 1 \right)}\xrightarrow{\varphi}\boldsymbol{a}^{\left( 1 \right)} \\ &\Rightarrow \boldsymbol{w}^{\left( 2 \right)}\boldsymbol{a}^{\left( 1 \right)}+\boldsymbol{b}^{\left( 2 \right)}=\boldsymbol{z}^{\left( 2 \right)}\xrightarrow{\varphi}\boldsymbol{a}^{\left( 2 \right)} \\ &\Rightarrow \cdots \cdots \cdots \cdots \cdots \cdots\cdots \xrightarrow{\varphi} \boldsymbol{a}^{\left( l-1 \right)} \\ &\Rightarrow \boldsymbol{w}^{\left( l \right)}\boldsymbol{a}^{\left( l-1 \right)}+\boldsymbol{b}^{\left( l \right)}=\boldsymbol{z}^{\left( l \right)}\xrightarrow{\varphi}\boldsymbol{a}^{\left( l \right)}=\boldsymbol{y} \end{aligned}$

为方便计算，我们定义： $\delta _{i}^{\left( m \right)}=\frac{\partial E}{\partial z_{i}^{\left( m \right)}}$

最后一层 $(m=l)$

$\begin{aligned} \delta _{i}^{\left( l \right)}&=\frac{\partial E}{\partial z_{i}^{\left( l \right)}}=\frac{\partial E}{\partial y_i}\frac{\partial y_i}{\partial z_{i}^{\left( l \right)}} \\ &=\left( y_i-Y_i \right) \varphi '\left( z_{i}^{\left( l \right)} \right) \end{aligned}$
非最后一层 $(m=1\sim l-1)$

$\begin{aligned} \delta _{i}^{\left( m \right)}&=\frac{\partial E}{\partial z_{i}^{\left( m \right)}}=\frac{\partial E}{\partial a_{i}^{\left( m \right)}}\frac{\partial a_{i}^{\left( m \right)}}{\partial z_{i}^{\left( m \right)}} \\ &=\left( \sum_{j=1}^{S_{m+1}}{\frac{\partial E}{\partial a_{i}^{\left( m+1 \right)}}} \right) \varphi '\left( z_{i}^{\left( m \right)} \right) \\ &=\left( \sum_{j=1}^{S_{m+1}}{w_{ji}^{\left( m+1 \right)}\delta _{j}^{\left( m+1 \right)}} \right) \varphi '\left( z_{i}^{\left( m \right)} \right) \end{aligned}$

这就是反向传播算法的名词由来，先计算最后的偏导数，再逐层向前推进

计算出 $\delta _{i}^{\left( m \right)}$ 后，可以很方便计算出：

$\begin{aligned} &\frac{\partial E}{\partial w_{ij}^{\left( m \right)}}=\frac{\partial E}{\partial z_{i}^{\left( m \right)}}\frac{\partial z_{i}^{\left( m \right)}}{\partial w_{ij}^{\left( m \right)}}=\delta _{i}^{\left( m \right)}a_{j}^{\left( m-1 \right)} \\ &\frac{\partial E}{\partial b_{i}^{\left( m \right)}}=\frac{\partial E}{\partial z_{i}^{\left( m \right)}}\frac{\partial z_{i}^{\left( m \right)}}{\partial b_{i}^{\left( m \right)}}=\frac{\partial E}{\partial z_{i}^{\left( m \right)}}=\delta _{i}^{\left( m \right)} \end{aligned}$

BP算法：

随机初始化 $\left( \boldsymbol{w},\boldsymbol{b} \right)$
训练样本 $\left( \boldsymbol{x},\boldsymbol{Y} \right)$ ，输入网络前向传播可求出所有的 $\left( \boldsymbol{z},\boldsymbol{a},\boldsymbol{y} \right)$
通过上述迭代方法计算出 $\left( \frac{\partial E}{\partial w_{ij}^{\left( m \right)}},\frac{\partial E}{\partial b_{i}^{\left( m \right)}} \right)$
更新：

$\begin{aligned} \boldsymbol{w}^{\left( \text{新} \right)}&=\boldsymbol{w}^{\left( \text{旧} \right)}-\alpha \frac{\partial E}{\partial \boldsymbol{w}}\mid _{\boldsymbol{w}^{\left( \text{旧} \right)}}^{}\\ \boldsymbol{b}^{\left( \text{新} \right)}&=\boldsymbol{b}^{\left( \text{旧} \right)}-\alpha \frac{\partial E}{\partial \boldsymbol{b}}\mid _{\boldsymbol{b}^{\left( \text{旧} \right)}}\\ \end{aligned}$
回到(2)，跳出循环条件： $\left( \frac{\partial E}{\partial w_{ij}^{\left( m \right)}},\frac{\partial E}{\partial b_{i}^{\left( m \right)}} \right)$ 足够小，或者 $E$ 足够小

这是通过反向传播算法（BP算法）训练多层神经网络的基本方法，但是训练多层神经网络特别是深层神经网络是个错综复杂的问题，下面会讨论到。

激活函数 $\varphi(\cdot)$ 的选择

若使用感知机的激活函数 $\varphi\left( x \right)=u(x)$ ，则 $\varphi '\left( x \right) \equiv 0$ （不考虑奇异函数，在x=0不可导就当x=0无定义）

由于 $\varphi '\left( x \right) \equiv 0$ 导致使用反向传播算法计算出来的关于各个参数的偏导数为0，则没有办法用梯度下降法优化模型，因此必须更换激活函数 $\varphi\left( \cdot \right)$

sigmoid函数

$\begin{aligned} \varphi \left( x \right) &=\frac{1}{1+e^{-x}} \\ \varphi '\left( x \right) &=\varphi \left( x \right) \left[ 1-\varphi \left( x \right) \right] \end{aligned}$

sigmoid函数是阶跃函数的模拟，并且做到了处处可导。
tanh函数

$\begin{aligned} \varphi \left( x \right) &=\tanh \left( x \right) =\frac{e^x-e^{-x}}{e^x+e^{-x}} \\ \varphi '\left( x \right) &=1-\varphi ^2\left( x \right) \end{aligned}$

以上的激活函数都有一个问题，就是在x远离原点处的导数为0，这在深度网络的反向传播中通常会出现梯度消失（弥散）的现象，导致深层网络难以训练的问题。因此在深度学习出现以后，常常采用以下激活函数。
ReLU函数

修正线性单元（Rectify Linear Units）

$\begin{aligned} \varphi \left( x \right) &=\begin{cases} x, x>0\\ 0, x\leqslant 0\\ \end{cases}=\max \left\{ 0,x \right\} \\ \varphi '\left( x \right) &=\begin{cases} 1, x>0\\ 0, x< 0\\ \end{cases} \end{aligned}$

在x>0时的梯度弥散现象得到解决，但x<0时仍然存在梯度弥散现象
Leak ReLU函数

$\begin{aligned} \varphi \left( x \right) &=\begin{cases} x, x>0\\ \beta x, x\leqslant 0\\ \end{cases} \\ \varphi '\left( x \right) &=\begin{cases} 1, x>0\\ \beta , x<0\\ \end{cases} \end{aligned}$

神经网络参数设置方法

随机梯度下降

随机梯度（Stochastic Gradient Descent, SGD）

不用每输入一个样本就去变换参数，而是输入一批样本（叫做一个BATCH或MINI-BATCH），求出这些样本的梯度平均值后，根据这个平均值改变参数。(GD是BATCH为1的SGD)
在神经网络训练中，BATCH的样本数大致设置为50-200不等。

激活函数选择

1590739683797

训练数据初始化

1590739661702

标准差 $std$ 也可以用 $(max-min)$ 来代替

$(\boldsymbol{w},b)$ 的初始化

1590739733567

梯度消失现象：如果 $\boldsymbol{w}^T\boldsymbol{x}+b$ 一开始很大或很小，那么梯度将趋近于0，反向传播后前面与之相关的梯度也趋近于0，导致训练缓慢。因此，我们要使 $\boldsymbol{w}^T\boldsymbol{x}+b$ 一开始在零附近。

一种比较简单有效的方法是： $(\boldsymbol{w},b)$ 初始化从区间 $\left( -\frac{1}{\sqrt{d}},\frac{1}{\sqrt{d}} \right)$ 均匀随机取值。其中 $d$ 为 $(\boldsymbol{w},b)$ 所在层的神经元个数。

可以证明，如果 $\boldsymbol{x}$ 服从正态分布，均值0，方差1，且各个维度无关，而 $(\boldsymbol{w},b)$ 是 $\left( -\frac{1}{\sqrt{d}},\frac{1}{\sqrt{d}} \right)$ 的均匀分布，则 $\boldsymbol{w}^T\boldsymbol{x}+b$ 是均值为0，方差为1/3的正态分布。

参数初始化是一个研究热点领域

Batch normalization

论文：Batch normalization accelerating deep network training by reducing internal covariate shift (2015)

基本思想：既然我们希望每一层获得的值都在0附近，从而避免梯度消失现象，那么我们为什么不直接把每一层的值做基于均值和方差的归一化呢？

1590741458551

对 $\gamma$ 和 $\beta$ 的说明：以sigmoid和tanh为例，若归一化后的样本过于聚集在0附近，则激活函数对外表现出几乎的线性，这是我们不希望看到的。因此增加了 $\gamma$ 和 $\beta$ 两个待学习的参数，使归一化在避免梯度消失和失去非线性中权衡。

目标函数选择

可加正则项（Regulation Term）

$L\left( w \right) =F\left( w \right) +R\left( w \right) =\frac{1}{2}\left( \sum_{i=1}^{batchsize}{\lVert y_i-Y_i \rVert ^2+\beta \sum_k^{}{\sum_l^{}{w_{k,l}^{2}}}} \right) \\$

如果是分类问题， $F(w)$ 可以采用Softmax函数和交叉熵的组合

（a）Softmax函数

$q_i=\frac{\exp \left( z_i \right)}{\sum_{j=1}^N{\exp \left( z_j \right)}},\sum_{i=1}^N{q_i}=1$

（b）交叉熵（Cross Entropy）

$E=-\sum_{i=1}^N{Y_i\log \left( y_i \right)}$

交叉熵可以作为误差函数，上面我们使用的误差函数为MSE，即 $E=\frac{1}{2}\sum_{i=1}^N{\lVert y_i-Y_i \rVert ^2}$ 。对于交叉熵，当 $p$ 和 $q$ 的分布越相近时， $E$ 的值越小。

综上，我们可以使用Softmax函数和交叉熵的组合作为目标函数：

$E=-\sum_{i=1}^N{p_i\log \left( q_i \right)}$

并且它的求导将会有非常简单的形式： $\frac{\partial E}{\partial z_i}=q_i-p_i$

参数更新策略

常规的更新（Vanilla Stochastic Gradient Descent）

1 2	nn.W{k} = nn.W{k} - nn.learning_ratenn.W_grad{k}; nn.b{k} = nn.b{k} - nn.learning_ratenn.b_grad{k};

SGD的问题：

（1） $(\boldsymbol{w},b)$ 的每一个分量获得的梯度绝对值有大有小，一些情况下，将会迫使优化路径变成Z字形状

1590747272690

（2）SGD求梯度的策略过于随机，由于上一次和下一次用的是完全不同的BATCH数据，将会出现优化的方向随机的情况。

AdaGrad（解决各个方向梯度不一致问题）

基本思想是：（1）引入了累计梯度的思想，希望这个梯度可以受过去梯度的影响；（2）对每一个梯度做了均值化，原来梯度大的地方变小一些，原来梯度小的地方放大一些，避免Z字形下降。
RMSProp（解决各个方向梯度不一致问题）

与AdaGrad唯一的区别是 $\gamma \gets \rho \gamma +\left( 1-\rho \right) g\odot g$ ，引入了一个新的参数 $\rho$ 用于权衡过去梯度和现在梯度的权值

Momentum（解决梯度随机性问题）

1590749107594

nn.vW{k} = 0.5*nn.vW{k} + nn.learning_rate*nn.W_grad{k};
 
nn.vb{k} = 0.5*nn.vb{k} + nn.learning_rate*nn.b_grad{k};
            
nn.W{k} = nn.W{k} - nn.vW{k};
nn.b{k} = nn.b{k} - nn.vb{k}; %rho = 0.5;

Momentum（动量）考虑了上一个梯度的对当前梯度的影响（AdaGrad和RMSProp考虑的是累计梯度对当前梯度的影响，没有Momentum那么有“冲劲”）

Adam（同时解决两个问题）

$r$ 是累计梯度，作为 $\bigtriangleup\varTheta$ 的分母可以解决各个方向梯度不一致； $s$ 是动量梯度，作为 $\bigtriangleup \varTheta$ 的分子可以解决梯度随机性问题

训练建议

（1）一般情况下，在训练集上的目标函数的平均值（cost）会随着训练的深入而不断减小，如果这个指标有增大情况，停下来。有两种情况：第一是采用的模型不够复杂，以致于不能在训练集上完全拟合；第二是已经训练很好了。

（2）分出一些验证集（Validation Set）,训练的本质目标是在验证集上获取最大的识别率。因此训练一段时间后，必须在验证集上测试识别率，保存使验证集上识别率最大的模型参数，作为最后结果。

（3）注意调整学习率（Learning Rate）,如果刚训练几步cost就增加，一般来说是学习率太高了；如果每次cost变化很小，说明学习率太低。

（4） Batch Normalization 比较好用，用了这个后，对学习率、参数更新策略等不敏感。建议如果用Batch Normalization, 更新策略用最简单的SGD即可，我的经验是加上其他反而不好。

（5）如果不用Batch Normalization, 我的经验是，合理变换其他参数组合，也可以达到目的。

（6）由于梯度累积效应，AdaGrad, RMSProp, Adam三种更新策略到了训练的后期会很慢，可以采用提高学习率的策略来补偿这一效应。

感知机