V
主页
位置编码有什么用?简单讲解位置编码原理 + 源码解读(绝对 / 相对 / RoPE)
发布人
第二期教程视频,这期视频做的真心累,不足之处希望大家多多指正。 部分参考资料: [1] 苏剑林. (Feb. 03, 2021). 《让研究人员绞尽脑汁的Transformer位置编码 》[Blog post]. Retrieved from https://www.kexue.fm/archives/8130. [2] 苏剑林. (Mar. 23, 2021). 《Transformer升级之路:2、博采众长的旋转式位置编码 》[Blog post]. Retrieved from https://www.kexue.fm/archives/8265. [3] Aston Zhang等.《动手学习深度学习》. [4] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. Journal of machine learning research, 2020, 21(140): 1-67. [5] Press O, Smith N A, Lewis M. Train short, test long: Attention with linear biases enables input length extrapolation[J]. arXiv preprint arXiv:2108.12409, 2021. [6] Su J, Ahmed M, Lu Y, et al. Roformer: Enhanced transformer with rotary position embedding[J]. Neurocomputing, 2024, 568: 127063. [7] Weng, Lilian. (Apr 2020). The transformer family. Lil’Log. https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/. [8] 知乎回答-“Transformer学习笔记一:Positional Encoding”. https://zhuanlan.zhihu.com/p/454482273. [9] 知乎回答-“六种位置编码的代码实现及性能实验”. https://zhuanlan.zhihu.com/p/415020704. [10] 知乎回答-“【手撕LLM-NTK RoPE】长文本“高频外推、低频内插“从衰减性视角理解”. https://zhuanlan.zhihu.com/p/702964625. [11] 知乎回答-“Transformer位置编码(基础)”. https://zhuanlan.zhihu.com/p/631363482. [12] CSDN博客-“大模型中的位置编码ALiBi,RoPE的总结和实现”. https://blog.csdn.net/baoyan2015/article/details/138133452. [13] https://towardsdatascience.com/master-positional-encoding-part-i-63c05d90a0c3 [14] https://machinelearningmastery.com/a-gentle-introduction-to-positional-encoding-in-transformer-models-part-1/. [15] 知乎回答-“Long LLM第二篇——why RoPE?”. https://zhuanlan.zhihu.com/p/694825487.
打开封面
下载高清视频
观看高清视频
视频下载器
简单讲解注意力机制(Attention Mechanism)原理 + 多头注意力代码实现
[动手写 Transformer] 从 RNN 到 Transformer,为什么需要位置编码(position encoding)
都2024了,还不知道先学Transformer还是Diffusion?迪哥精讲BERT、Swin、DETR、VIT四大核心模型,原理讲解+论文解读+代码复现!
超全超简单!一口气刷完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM、DBN等八大深度学习神经网络算法!真的比刷剧还爽!
【文献汇报】多尺度注意力Transformer
【必看,信息量极大】高盛闭门会|中国出口增长将大幅下降,对经济增长贡献将下降至0.1%,内需成为增长决定性因素!
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
吃透多模态四大模型!计算机大佬带你一口气学会:CLIP BLIP VIT MLLM多模态底层逻辑!真的通俗易懂!带你真正的对话机器人!(人工智能、深度学习)
【全126集】目前B站最系统的Transformer教程!入门到进阶,全程干货讲解!拿走不谢!(神经网络/NLP/注意力机制/大模型/GPT/RNN)
小波变换+注意力机制再登Nature!这15种创新突破,你还不知道?
超越GPT-4o mini!北大开源国产多模态版o1,超强视觉推理惊呆网友
强推!从入门到精通CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气全部学完!比刷剧还爽!
吹爆!不愧是中科院大佬,7天就把Transformer、RNN、BERT和迁移学习讲透了!整整100集付费,全程干货讲解,这还学不会up直接退出IT圈!
北大新作:傅里叶分析神经网络,填补周期性特征建模缺陷,Transformer重要缺陷被揭示!
深度学习论文被评“创新性不足、工作量不够”怎么办? -人工智能/深度学习/机器学习
30分钟学会Qwen2.5-3B本地部署LightRAG,完胜GraphRAG!从模型部署到源码解读,带你全流程解析,速度快,效果好,落地部署更方便!!!
绝了!用降噪耳机原理升级注意力? 微软亚研&清华独创Transformer
一句话生成应用,现在人人可用了👩💻
预测误差降低36%!小波变换+Transformer荣登Nature!
【新游戏电台】QA特别篇:专访温铁军,温老师如何看美国总统大选,数字货币,人工智能等时事热点问题
杨振宁室友:计算复杂性理论第一华人
哈佛入校测试题,简洁而不简单的方程!
注意力机制2024依然强势!多尺度卷积+注意力机制一举拿下高分!模型准确率几乎100%
【深度学习 搞笑教程】33 Seq2Seq网络 Attention注意力机制 | 草履虫都能听懂 零基础入门 | 持续更新
transformers一个非常严重的bug——在使用梯度累计的时候 loss不等效
天才中单体验德国女大学生开学的一天
2024最新即插即用卷积模块MSPANet打败Resnet、SE、CBAM,CNN框架模型涨点!
提升 Cursor 使用体验的 3 个关键技巧全解
【即插即用】2023 线性注意力模块
A股:11月21日收评:盘面小幅收跌,明天会是黑色星期五吗?
强推!草履虫都能一口气学完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM、DBN等八大深度学习神经网络算法!真的比刷剧还爽!
【文献汇报】2024 多尺度卷积增强Transformer
【B站强推!】这可能是B站目前唯一能将【3D点云+三维重建】讲清楚的教程了,看完小白也能信手拈来,建议收藏!计算机视觉|点云
CNN+transformer结合:参数量减少92%,性能仍然超越SOTA!23种创新idea
LightRAG优于GraphRAG?速度更快,效果更好,落地部署更方便!从原理、本地Qwen2.5-3B模型部署到源码解读,带你全流程解析
【即插即用】2023 高效多尺度注意力模块
券商,新半军轮番异动,但并未点燃情绪。后续重点关注中证1000/2000的量能,以及板块轮动的速度(11·21收盘点评&11·22盘前点评))
AutoModel的lazy加载方式原理解读
多头注意力(Multi-Head Attention)
当我把这个数学公式放进三维空间...结果太惊艳了!