ML:2-2-2 sigmoid 函数的替代方案

发布时间:2024年01月23日


【吴恩达p62-64】

1. sigmoid function的替代方案

  1. 来看上周的例子,预测一个商品是否能成为消冠。
  2. 这里的awareness可能是binary的。人们要么知道/不知道。但事实上,可能是知道一点,完全知道…
  3. 因此,与其用0/1来预测(太简单了)或者0-1之间的数字,不如直接尝试预测awareness的概率。让awareness可以取到负值。
  4. 使用该方程,来预测awareness,会得到左侧的图像。如果想让a1_2取到大雨1的数字,在neural network里更常见的是使用右侧图像的这种activation【ReLU】,这样g(z)就可以取到所有非负数。

请添加图片描述
5. 一些常见的activation function:
(1) Linear activation function【也可以说没有使用任何activation function, 因为会直接让a = wx+b】
(2)sigmoid
(3)RuLU

请添加图片描述

2. 如何选择activation function

  1. 如何选择output layer的activation function,这取决于target label / 真实值y是什么。
    (1)处理classification的问题,sigmoid function通常是最自然的选择。因为让neural network去预测y=1的概率,跟我们做logistic regression一样。
    (2)处理regression问题时,如果y值可正可负(预测股价变化)建议用linear activation function。因为y值可+可-。
    (3)处理regression问题时,如果y值只能是非负数,那么就用ReLU
    请添加图片描述
  2. 如何选择hidden layer的activation function:
    1. ReLU是neural network里最常见的一种选择。
      原因一:ReLU只有一个部分是平坦的,sigmoid有2部分,flat会导致gradient descent很慢。因为flat会导致cost function的偏导约等于0.
      原因二:它计算更快
      请添加图片描述
      请添加图片描述

3. 为什么模型需要activation function

  1. 如果model全用linear activation function在所有的neuron会怎么样?
    这个模型会完全等于linear regression。

请添加图片描述

  • 这个模型会完全等于linear regression。(过程)

请添加图片描述

  • 如果所有的hidden layer都用linear activation function,只有output layer用logistic activation function的话,这个模型会完全等于logistic regression。
    请添加图片描述
文章来源:https://blog.csdn.net/skylar0/article/details/135661497
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。