完成业绩才能回国，完成多少业绩?五百万，我帮你完成 - 视频下载 Video Downloader

京东 11.11 红包

完成业绩才能回国，完成多少业绩?五百万，我帮你完成

发布人

-

打开封面下载高清视频观看高清视频视频下载器

14 Transformer之位置编码Positional Encoding （为什么 Self-Attention 需要位置编码）

通俗易懂-大模型的关键技术之一：旋转位置编码rope （1）

LLM面试_为什么常用Decoder Only结构

RoPE旋转位置编码原理解读

通俗易懂-大模型的关键技术之一：旋转位置编码rope （2）

解密旋转位置编码：数学基础、代码实现与绝对编码一体化探索

transformer中位置编码的理解

通俗易懂-大模型的关键技术之一:旋转位置编码rope （3）

75、Llama源码讲解之RoPE旋转位置编码

瞎聊点位置编码｜旋转位置编码RoPE简介

[personal chatgpt] 从 RoPE 到 CoPE（绝对位置编码，相对位置编码，Contextual Position Encoding）

大模型修炼之道(二): GPT系列GPT1，GPT2，GPT3，GPT4

大模型面试之位置编码-大语言模型中常用的旋转位置编码RoPE详解-卢菁博士授课-利用位置编码实现长度外推-如何利用位置编码实现长度外推

模型量化六：QLoRA 4bit 量化 NormalFloat4 量化

【bd5m】小任务r夹

怎么加快大模型推理？10分钟学懂VLLM内部原理，KV Cache，PageAttention

大模型修炼之道(三): Llama系列讲解 Llama1，Llama2, Llama3

Flash Attention 为什么那么快？原理讲解

AI 工程师都应该知道的GPU工作原理，TensorCore

transformer计算位置编码的过程示例

19、Transformer模型Encoder原理精讲及其PyTorch逐行实现

你真的理解交叉熵损失函数了吗？

十分钟搞明白Adam和AdamW，SGD，Momentum，RMSProp，Adam，AdamW

DPO (Direct Preference Optimization) 算法讲解

Batch Normalization（批归一化）和 Layer Normalization（层归一化）的一些细节可能和你想的并不一样

用梯度检查点来节省显存 gradient checkpointing

从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)

模型量化一：量化基础对称量化非对称量化极大值量化零点量化

你知道用什么指标评价一个大模型的好坏吗？PPL，MMLU，MATH，GPQA，BBH，IF-EVAL，MMLU-PRO

大模型微调看这个视频就够了 SFT NEFTune

大模型修炼之道(一): Transformer Attention is all you need

动画理解Pytorch 大模型分布式训练技术 DP，DDP，DeepSpeed ZeRO技术

10分钟搞明白如何设置大模型推理参数，top_k，top_p, temperature, num_beams。温度，beam search。

大模型训练如何计算显存占用

大模型量化一网打尽（一）理论基础

零基础学习强化学习算法：ppo

通过看DeepSeek-v2思考目前大模型学习路径

一次学懂混合精度训练 AMP Automatic Mixed Precision

Pytorch里的register_parameter和register_buffer是干什么的？

三分钟学会大模型PEFT的LORA算法 lora_rank， lora_alpha