[归一化]RMSNorm

发布时间：2023年12月21日

RMSNorm

输入向量 $\in \mathbb{R^m}$ ,输出向量 $y\in \mathbb{R^n}$

线性变换： $y_i= f(a_i+b_i)$

其中：

非线性激活函数： $a_i=\displaystyle \sum^m_{j=1}w_{ij}x_j$
$w_i$ 为第i个神经元的权重， $b_i$ 为偏置项

LayerNorm：

$\overline{a}_i=\frac{a_i-\mu}{\sigma}g_i$ ， $y_i= f(\overline{a}_i+b)$

其中：

均值 $\mu = \frac{1}{n} \displaystyle \sum_{i=1}^na_i$
方差 $\sigma= \sqrt[]{\frac{1}{n} \displaystyle \sum_{i=1}^n(a_i-\mu)^2}$

代码实现

class LayerNorm(torch.nn.Module):
  def __int__(self, dim, eps=1e-6):
    self.eps = eps
    self.weight = nn.Parameter(dim)
  
  def forward(self, x):
    output = self._norm(x)
    return output * self.weight

RMSNorm：

$\overline{a}_i=\frac{a_i}{RMS(a)}g_i$ ， $y_i= f(\overline{a}_i+b)$

其中：

$\sqrt[]{\frac{1}{n} \displaystyle \sum_{i=1}^na_i^2}$

补充：

不考虑re-center，效果几乎相似但效率更高
是LayerNorm中均值为0的特殊情况

代码实现

class RMSNorm(torch.nn.Module):
  def __init__(self, dim, eps=1e-6):
    self.eps = eps
    self.weight = nn.Parameter(torch.ones(dim))
    
  def _norm(self, x):
    return x * torch.rsqrt(x.pow(2).mean(-1, keep_dim=True) + self.eps)
  
  def forward(self, x):
    output = self._norm(x.float()).type_as(x)
    return output * self.weight

文章来源:https://blog.csdn.net/Elvira521yan/article/details/135126033
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！