继前文介绍 Position Interpolation-线性插值方案对LLM外推扩展,本文介绍PI的改进方案:NTK-Aware Scaled RoPE。经过搜索,目前发现有两种方式来理解NTK-Aware Scaled RoPE。
方式1:从旋转弧度的角度进行理解
Position Interpolation:
通过缩小每个位置的旋转弧度,每个位置的旋转弧度变为原来的 ,长度扩大几倍,则旋转弧度缩小几倍。换个说法:将之前未见过的弧度也插入到见过的训练弧度范围内,以满足外推需求。由于旋转弧度是线性变化的,所以也称为线性位置插值。:训练长度,: