旋转位置编码-绝对位置编码与相对位置编码的结合

发布人

自 2017 年《attention is all you need》论文发表以来，Transformer 架构经受住了时间的考验， 2022 年提出了新的架构改进——rotary positional embeddings（旋转位置嵌入），这一改进已被广泛应用于许多语言模型中。该视频解释了旋转位置嵌入的概念以及它如何结合了绝对和相对位置嵌入的优点。
Highlights
[🔄] Transformer 模型默认对顺序不敏感，为了保留顺序信息，需要添加位置信息。
[🎚️] 绝对位置嵌入是一种常见的方法，通过学习或使用正弦函数来生成每个位置的嵌入向量。
[↔️] 相对位置嵌入则学习表示每对标记之间的位置关系，不同于绝对位置嵌入。
[🔄] 旋转位置嵌入将嵌入向量进行旋转，而不是简单地添加位置向量，从而结合了绝对和相对位置嵌入的优点。
[🛠️] 旋转位置嵌入的实现采用了一种简单而有效的数学计算方法，能够在 PyTorch 中用少量代码实现。
[📊] 实验表明，在语言建模任务中，使用旋转位置嵌入训练的模型比使用正弦嵌入训练的模型更快。
In this video, I explain RoPE - Rotary Positional Embeddings. Proposed in 2022, this innovation is swiftly making its way into prominent language models like Google&#39;s PaLM and Meta&#39;s LLaMa. I unpack the magic behind rotary embeddings and reveal how they combine the strengths of both absolute and relative positional encodings.

0:00 - Introduction
1:22 - Absolute positional embeddings
3:19 - Relative positional embeddings
5:51 - Rotary positional embeddings
7:56 - Matrix formulation
9:31 - Implementation
10:38 - Experiments and conclusion

References:

RoFormer: Enhanced Transformer with Rotary Position Embedding (main paper that proposes RoPE embeddings): https://arxiv.org/abs/2104.09864

Blog posts by first author Jianlin Su (in Chinese): https://kexue.fm/archives/8130 and https://kexue.fm/archives/8265

Survey paper on positional embeddings: https://aclanthology.org/2022.cl-3.7/

打开封面下载高清视频观看高清视频视频下载器

旋转位置编码-绝对位置编码与相对位置编码的结合

模型压缩-剪枝，蒸馏与量化

论文分享：DoLa等文章 Contrastive search对比学习方法在decoding解码策略中的应用，提高输出多样性，正确性，减少幻觉

llama3 meta ai模型进化，开源模型使用教程

如何评价大模型的能力值，大语言模型的评测标准BLEU，ROUGE，BERTscore，Entailmentscore, Chain-of-Code

大模型通俗讲解中文字幕-生成式人工智能

论文分享：Chain-of-Code, LINC, Logic Driven Data Extension

大模型第二课：Transformer结构。input embedding, position embedding, query, key, value,

【论文】Decoding-time Realignment of Language

语音识别OpenAI Whisper微调，识别中文地方方言-潮州话

再有人问我什么是LoRA，我就甩给他这个视视频！LoRA、精度以及量化

Transformer在训练阶段和推理阶段分别是怎么工作的（inference vs. training）

动画演示Transformer模型

如何理解模型量化-GGML vs GPTQ

这是我看过最好的Transformer模型讲解视频 - Model explanation (including math)

数字人实现的终极方案？阿里EMO一张照片驱动人脸视频的生成工具

大模型解码/采样新策略Assisted Generation/speculative sampling

Code LLaMA 首个据说超越GPT-4的代码生成模型

如何在笔记本上一键运行本地大模型。免安装，只需要一个文件，赶快学起来吧。llamafile的下载与使用教程

BERT模型介绍 Training, Inference, BERT vs GPT_LLamA, Fine tuning

语言模型的发展史

82、LLaMA-2 论文导读

7年前的显卡RTX2080翻红，22g魔改版很适合语言模型部署与SD出图，11g改22g新手向保姆教程来啦，改装过程与效能大公开

OpenAI视频模型Sora虽好，但是缺点也非常明显。从文本生成视频 AI世界模型的时代已经到来，然而，该技术的性能受到计算能力的限制，且正确的提示对其表现至关

NLP24最新课程连载中UMass CS685 S24 (Advanced NLP) #3: Neural language models

若不是因为这项技术就可能不会有苹果的初代iPhone 人工智能算法加持的虚拟键盘自动更正技术如何让苹果的手机项目起死回生

NLP24年春季最新课程-正在连载UMass CS685 S24 (Advanced NLP) #1: Introduction

知了cg真的把maya编撰成了《葵花宝典》不用自宫也能学习成功！

纸片人老婆进化拯救人工智障语言理解为什么这么难自然语言处理技术NLP能做什么多面体发明了AI自动写作？

我训练了一个爱死机jibaro风格的图像生成模型！

[English]If it is not for this technology, there won't be the first iPhone-AI

【正面视角】5岁中国少年朱修远以2.942秒的成绩打破[4×5华容道]兵分三路布局WRCA世界纪录使用魔域三国华容道！

投票的时候，要有一个没意义的搞笑选项 (学术短篇)

旋转位置编码-绝对位置编码与相对位置编码的结合

模型压缩-剪枝，蒸馏与量化

论文分享：DoLa等文章 Contrastive search对比学习方法在decoding解码策略中的应用，提高输出多样性，正确性，减少幻觉

llama3 meta ai模型进化，开源模型使用教程

如何评价大模型的能力值，大语言模型的评测标准BLEU，ROUGE，BERTscore，Entailmentscore, Chain-of-Code

大模型通俗讲解中文字幕-生成式人工智能

论文分享：Chain-of-Code, LINC, Logic Driven Data Extension

大模型第二课：Transformer结构。input embedding, position embedding, query, key, value,

【论文】Decoding-time Realignment of Language

语音识别OpenAI Whisper微调，识别中文地方方言-潮州话

再有人问我什么是LoRA，我就甩给他这个视视频！LoRA、精度以及量化

Transformer在训练阶段和推理阶段分别是怎么工作的（inference vs. training）

动画演示Transformer模型

如何理解模型量化-GGML vs GPTQ

这是我看过最好的Transformer模型讲解视频 - Model explanation (including math)

数字人实现的终极方案？阿里EMO一张照片驱动人脸视频的生成工具

大模型解码/采样新策略Assisted Generation/speculative sampling

Code LLaMA 首个据说超越GPT-4的代码生成模型

如何在笔记本上一键运行本地大模型。免安装，只需要一个文件，赶快学起来吧。llamafile的下载与使用教程

BERT模型介绍 Training, Inference, BERT vs GPT_LLamA, Fine tuning

语言模型的发展史

82、LLaMA-2 论文导读

7年前的显卡RTX2080翻红，22g魔改版很适合语言模型部署与SD出图，11g改22g新手向保姆教程来啦，改装过程与效能大公开

OpenAI视频模型Sora虽好，但是缺点也非常明显。从文本生成视频 AI世界模型的时代已经到来，然而，该技术的性能受到计算能力的限制，且正确的提示对其表现至关

NLP24最新课程连载中UMass CS685 S24 (Advanced NLP) #3: Neural language models

若不是因为这项技术 就可能不会有苹果的初代iPhone 人工智能算法加持的虚拟键盘 自动更正技术如何让苹果的手机项目起死回生

NLP24年春季最新课程-正在连载UMass CS685 S24 (Advanced NLP) #1: Introduction

知了cg真的把maya编撰成了《葵花宝典》不用自宫也能学习成功！

纸片人老婆进化 拯救人工智障 语言理解为什么这么难 自然语言处理技术NLP能做什么 多面体发明了AI自动写作？

我训练了一个爱死机jibaro风格的图像生成模型！

[English]If it is not for this technology, there won't be the first iPhone-AI

【正面视角】5岁中国少年朱修远以2.942秒的成绩打破[4×5华容道]兵分三路布局WRCA世界纪录 使用魔域三国华容道！

投票的时候，要有一个没意义的搞笑选项 (学术短篇)

若不是因为这项技术就可能不会有苹果的初代iPhone 人工智能算法加持的虚拟键盘自动更正技术如何让苹果的手机项目起死回生

纸片人老婆进化拯救人工智障语言理解为什么这么难自然语言处理技术NLP能做什么多面体发明了AI自动写作？

【正面视角】5岁中国少年朱修远以2.942秒的成绩打破[4×5华容道]兵分三路布局WRCA世界纪录使用魔域三国华容道！