首先,Swish 是像 ReLU、sigmoid 和 tanh 一样的非线性函数,使神经网络能够对输入和输出之间的复杂关系进行建模。非线性函数对于深度学习的工作至关重要,因为它们能够捕获和表示复杂的模式。
与 ReLU 等其他常用激活函数相比,Swish 具有独特的形状。它的形状更像是 sigmoid 函数,随着输入值的增加,输出平滑且逐渐增加。此功能使 Swish 在处理各种输入方面更具适应性和效率。
Swish 定义为 ,其中 是 sigmoid 函数,β 是常数或可训练参数。研究人员选择 Swish 而不是其他激活函数,因为它泛化能力更好。
import matplotlib.pyplot as plt
import numpy as np
def swish(x):
return x * sigmoid(x)
def sigmoid(x