09-30 08:19 阅读 67

神经网络之Sigmoid、Tanh、ReLU、LeakyReLU、Softmax激活函数

我们把神经网络从输入到输出的计算过程叫做前向传播(Forward propagation)。神经网络的前向传播过程，也是数据张量(Tensor)从第一层流动(Flow)至输出层的过程：从输入数据开始，途径每个隐藏层，直至得到输出并计算误差，这也是TensorFlow 框架名字意义所在。

激活函数的由来和意义

感知机（Perception）是线性模型，并不能处理线性不可分问题。通过在线性模型后添加激活函数(Activation function)后得到活性值(Activation)。添加激活函数后，感知机可以用来完成二分类任务的分类。阶跃函数和符号函数在? =0处是不连续的，其他位置导数为0，无法利用梯度下降算法进行参数优化。
神经网络（neural network）：感知机模型的不可导特性严重约束了它的潜力，使得它只能解决极其简单的任务。实际上，现代深度学习动辄数百万甚至上亿的参数规模，它的核心结构与感知机并没有多大差别，它在感知机的基础上，将不连续的阶跃激活函数换成了其他平滑连续激活函数，并通过堆叠多层网络层来增强网络的表达能力。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')

1 Sigmoid

优点：它的一个优良特性就是能够把? ∈ ?的输入“压缩”到? ∈ [0,1]区间，这个区间的数值在机器学习常用来表示以下意义：概率分布和信号强度。Sigmoid 函数连续可导，相对于阶跃函数，可以直接利用梯度下降算法优化网络参数，应用的非常广泛。
缺点：但是Sigmoid 函数在输入值较大或较小时容易出现梯度值接近于0 的现象，称为梯度弥散现象，网络参数长时间得不到更新，很难训练较深层次的网络模型。

def sigmoid(x):
    return 1/(1+np.exp(-x))

X = np.arange(-5, 5, 0.1)
y = sigmoid(X)

plt.plot(X, y)
plt.ylim(-0.1, 1.1)
plt.title('Sigmoid')
plt.show()

sigmoid激活函数

使用tensorflow实现

import tensorflow as tf
x = tf.linspace(-6.,6.,100)  # start和end只能是浮点数
y = tf.nn.sigmoid(x)

plt.plot(x,y)
plt.title('Sigmoid')
plt.show()

sigmoid激活函数

2 tanh

Tanh 函数能够将? ∈ ?的输入“压缩”到[−1,1]区间，tanh 激活函数可通过Sigmoid 函数缩放平移后实现。

def tanh(x):
    return (np.exp(x)-np.exp(-x))/(np.exp(x)+np.exp(-x))

X = np.arange(-6,6,0.1)
y = tanh(X)

plt.plot(X,y)
plt.ylim(-1.5,1.5)
plt.title('tanh')
plt.show()

output_6_0.png

使用tensorflow实现

X = np.arange(-6,6,0.1)
y = tf.nn.tanh(X)

plt.plot(X,y)
plt.title('tanh')
plt.show()

3 relu

它具有单侧抑制、相对宽松的兴奋边界等特性。ReLU 函数的设计源自神经科学，计算十分简单，同时有着优良的梯度特性，在大量的深度学习应用中被验证非常有效，是应用最广泛的激活函数之一。

def relu(x):
    return np.maximum(0,x)

X = np.arange(-6,6,0.1)
y = relu(X)

plt.plot(X,y)
plt.ylim(0,6)
plt.title('relu')
plt.show()

output_10_0.png

使用tensorflow实现

X = np.arange(-6,6,0.1)
y = tf.nn.relu(X)

plt.plot(X,y)
plt.title('relu')
plt.show()

4 leaky_relu

其中?为用户自行设置的某较小数值的超参数，如0.02 等。当? = 0时，LeayReLU 函数退化为ReLU 函数；当? ≠ 0时，? < 0能够获得较小的梯度值?，从而避免出现梯度弥散现象。

def leaky_relu(x,p):
    x = np.array(x)
    return np.maximum(x,p*x)

X = np.arange(-6,6,0.1)
y = leaky_relu(X,0.1)

plt.plot(X,y)
plt.ylim(-1,6)
plt.title('leaky_relu')
plt.show()

output_14_0.png

用tensorflow实现

X = np.arange(-6,6,0.1)
y = tf.nn.leaky_relu(X,alpha = 0.1)

plt.plot(X,y)
plt.ylim(-1,6)
plt.title('leaky_relu')
plt.show()

5 Softmax函数及其意义

softmax函数示例

1）输出总和为1
2）每一个输出都介于[0.0~1.0]之间
3）exp(a)是单调递增函数，也就是说a的大小关系和y的大小关系并没有改变
4）机器学习分为学习和预测(深度学习中一般叫：推理)两个阶段：一般只在学习阶段给网络输出层加上softmax，在推理阶段，一般就省略掉了softmax函数。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')

def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

a = np.array([24.4, 30.5, 100.8, 10.1, 20.2, 8.9, 5.1])

softmax(a)

array([6.60543742e-34, 2.94508560e-31, 1.00000000e+00, 4.06902625e-40,
       9.90523443e-36, 1.22556715e-40, 2.74168832e-42])

```python
sum(softmax(a))

1.0

输出总和为1

实现softmax的注意事项

为了避免求exp(x)出现溢出的情况，一般需要减去最大值

a = np.array([1010, 1000, 990])
np.exp(a) / np.sum(np.exp(a))

array([nan, nan, nan])

```python
softmax(a)

array([nan, nan, nan])

```python
c = np.max(a)
a - c

array([  0, -10, -20])

```python
print(softmax(a-c))
print(sum(softmax(a-c)))

[9.99954600e-01 4.53978686e-05 2.06106005e-09]
1.0

内容参考：《TensorFlow2深度学习》

作者:ShowMeCoding

原文链接:https://www.jianshu.com/p/e49952b5b324