阅读 73

神经网络之Sigmoid、Tanh、ReLU、LeakyReLU、Softmax激活函数

我们把神经网络从输入到输出的计算过程叫做前向传播(Forward propagation)。神经网络的前向传播过程,也是数据张量(Tensor)从第一层流动(Flow)至输出层的过程:从输入数据开始,途径每个隐藏层,直至得到输出并计算误差,这也是TensorFlow 框架名字意义所在。

激活函数的由来和意义

感知机(Perception)是线性模型,并不能处理线性不可分问题。通过在线性模型后添加激活函数(Activation function)后得到活性值(Activation)。添加激活函数后,感知机可以用来完成二分类任务的分类。阶跃函数和符号函数在? =0处是不连续的,其他位置导数为0,无法利用梯度下降算法进行参数优化。
神经网络(neural network):感知机模型的不可导特性严重约束了它的潜力,使得它只能解决极其简单的任务。实际上,现代深度学习动辄数百万甚至上亿的参数规模,它的核心结构与感知机并没有多大差别,它在感知机的基础上,将不连续的阶跃激活函数换成了其他平滑连续激活函数,并通过堆叠多层网络层来增强网络的表达能力

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')

1 Sigmoid

  • 优点:它的一个优良特性就是能够把? ∈ ?的输入“压缩”到? ∈ [0,1]区间,这个区间的数值在机器学习常用来表示以下意义:概率分布和信号强度。Sigmoid 函数连续可导,相对于阶跃函数,可以直接利用梯度下降算法优化网络参数,应用的非常广泛。
  • 缺点:但是Sigmoid 函数在输入值较大或较小时容易出现梯度值接近于0 的现象,称为梯度弥散现象,网络参数长时间得不到更新,很难训练较深层次的网络模型。
def sigmoid(x):
    return 1/(1+np.exp(-x))

X = np.arange(-5, 5, 0.1)
y = sigmoid(X)

plt.plot(X, y)
plt.ylim(-0.1, 1.1)
plt.title('Sigmoid')
plt.show()
sigmoid激活函数

使用tensorflow实现

import tensorflow as tf
x = tf.linspace(-6.,6.,100)  # start和end只能是浮点数
y = tf.nn.sigmoid(x)

plt.plot(x,y)
plt.title('Sigmoid')
plt.show()
sigmoid激活函数

2 tanh

Tanh 函数能够将? ∈ ?的输入“压缩”到[−1,1]区间,tanh 激活函数可通过Sigmoid 函数缩放平移后实现。

def tanh(x):
    return (np.exp(x)-np.exp(-x))/(np.exp(x)+np.exp(-x))

X = np.arange(-6,6,0.1)
y = tanh(X)

plt.plot(X,y)
plt.ylim(-1.5,1.5)
plt.title('tanh')
plt.show()
output_6_0.png

使用tensorflow实现

X = np.arange(-6,6,0.1)
y = tf.nn.tanh(X)

plt.plot(X,y)
plt.title('tanh')
plt.show()

3 relu

它具有单侧抑制、相对宽松的兴奋边界等特性。ReLU 函数的设计源自神经科学,计算十分简单,同时有着优良的梯度特性,在大量的深度学习应用中被验证非常有效,是应用最广泛的激活函数之一。

def relu(x):
    return np.maximum(0,x)

X = np.arange(-6,6,0.1)
y = relu(X)

plt.plot(X,y)
plt.ylim(0,6)
plt.title('relu')
plt.show()
output_10_0.png

使用tensorflow实现

X = np.arange(-6,6,0.1)
y = tf.nn.relu(X)

plt.plot(X,y)
plt.title('relu')
plt.show()

4 leaky_relu

其中?为用户自行设置的某较小数值的超参数,如0.02 等。当? = 0时,LeayReLU 函数退化为ReLU 函数;当? ≠ 0时,? < 0能够获得较小的梯度值?,从而避免出现梯度弥散现象。

def leaky_relu(x,p):
    x = np.array(x)
    return np.maximum(x,p*x)

X = np.arange(-6,6,0.1)
y = leaky_relu(X,0.1)

plt.plot(X,y)
plt.ylim(-1,6)
plt.title('leaky_relu')
plt.show()
output_14_0.png

用tensorflow实现

X = np.arange(-6,6,0.1)
y = tf.nn.leaky_relu(X,alpha = 0.1)

plt.plot(X,y)
plt.ylim(-1,6)
plt.title('leaky_relu')
plt.show()

5 Softmax函数及其意义

softmax函数示例
  • 1)输出总和为1
  • 2)每一个输出都介于[0.0~1.0]之间
  • 3)exp(a)是单调递增函数,也就是说a的大小关系和y的大小关系并没有改变
  • 4)机器学习分为学习和预测(深度学习中一般叫:推理)两个阶段:一般只在学习阶段给网络输出层加上softmax,在推理阶段,一般就省略掉了softmax函数。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y
a = np.array([24.4, 30.5, 100.8, 10.1, 20.2, 8.9, 5.1])
softmax(a)
array([6.60543742e-34, 2.94508560e-31, 1.00000000e+00, 4.06902625e-40,
       9.90523443e-36, 1.22556715e-40, 2.74168832e-42])
​```python
sum(softmax(a))
1.0

输出总和为1

实现softmax的注意事项

为了避免求exp(x)出现溢出的情况,一般需要减去最大值

a = np.array([1010, 1000, 990])
np.exp(a) / np.sum(np.exp(a))
array([nan, nan, nan])
​```python
softmax(a)
array([nan, nan, nan])
​```python
c = np.max(a)
a - c
array([  0, -10, -20])
​```python
print(softmax(a-c))
print(sum(softmax(a-c)))
[9.99954600e-01 4.53978686e-05 2.06106005e-09]
1.0

内容参考:《TensorFlow2深度学习》

作者:ShowMeCoding

原文链接:https://www.jianshu.com/p/e49952b5b324

文章分类
后端
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐