LLM:PI - 位置插值

发布时间:2024年01月22日

标题:EXTENDING CONTEXT WINDOW OF LARGE LANGUAGE MODELS VIA POSITION INTERPOLATION

论文:https://arxiv.org/pdf/2306.15595.pdf

发表:2023

?

Transformer的长度外推技术分为两类:

1:修改推理:比如PI、NTK-RoPE、YaRN、ReRoPE等。

        优点:可直接修改推理模型,无需微调就能达到一定的长度外推效果

        缺点:无法保持模型在训练长度内的恒等性

2:修改训练:如ALIBI、KERPLE、XPOS以及HWFA等。

        优点:训练和推理保持了一致性

        缺点:无法直接用于现成模型,需要训练微调

动机

文章来源:https://blog.csdn.net/lilai619/article/details/135750171
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。