假设我们有?个函数f : R → R,其输?和输出都是标量。如果f的导数存在,这个极限被定义为
如果f′(a)存在,则称f在a处是可微的。如果f在?个区间内的每个数上都是可微的,则此函数在此区间中是可微的。导数f′(x)解释为f(x)相对于x的瞬时变化率。所谓的瞬时变化率是基于x中的变化h,且h接近0。
给定y = f(x),其中x和y分别是函数f的?变量和因变量。以下表达式是等价的:
设y = f(x1, x2, . . . , xn)是?个具有n个变量的函数。y关于第i个参数xi的偏导数为:
对于偏导数的表?,以下是等价的:
梯度是?个向量,其分量是多变量函数相对于其所有变量的偏导数。
设函数f : Rn → R的输?是?个n维向量x = [x1, x2, . . . , xn]?,并且输出是?个标量。函数f(x)相对于x的梯度是?个包含n个偏导数的向量:
在深度学习中,多元函数通常是复合(composite)的,所以微分这些函数比较难,链式法则可以被?来微分复合函数。
假设函数y = f(u)和u = g(x)都是可微的,根据链式法则:
假设可微分函数y有变量u1, u2, . . . , um,其中每个可微分函数ui都有变量x1, x2, . . . , xn,根据链式法则: