V
主页
如何优雅的修改transformers包的模型结构——面向nlp小白的开发教程
发布人
介绍如何优雅的修改模型结构代码,而不是暴力的修改模型源码。 介绍一个非常优秀的训练推理加速库,liger_kernel 介绍管理多个模块的小技巧,助力你探索nlp
打开封面
下载高清视频
观看高清视频
视频下载器
【手把手带你实战HuggingFace Transformers-入门篇】基础知识与环境安装
Transformer从零详细解读(可能是你见过最通俗易懂的讲解)
transformers源码阅读——如何看懂模型代码(以llama为例)
微调一个模型需要多少GPU显存?
HuggingFace简明教程,BERT中文模型实战示例.NLP预训练模型,Transformers类库,datasets类库快速入门.
Batch Normalization(批归一化)和 Layer Normalization(层归一化)的一些细节可能和你想的并不一样
从0开始训练1.4b中文大模型的经验分享
transformers一个非常严重的bug——在使用梯度累计的时候 loss不等效
transformers源码阅读——入门(提高nlp工程师的工程能力)
【大模型学习路径】LLM知识点及面试相关
transformers源码阅读——图解mixtral模型——图解MoE细节
大模型微调看这个视频就够了 SFT NEFTune
Flash Attention 为什么那么快?原理讲解
沉浸式大模型面试,你能扛到第几枪?
经典RAG很难解决的问题以及Agent思路
深度学习修改网络结构后,如何加载预训练权重?
训练LLaVA模型(数据集构建、基于Trainer的训练框架搭建)——LLaVA系列
transfomers源码阅读——Trainer解读系列1_了解训练流程
文本转向量教程s1——总体介绍
大模型后训练前沿技术报告 ① | 大语言模型的RLHF算法原理与实践
多模态大模型LLaVA模型讲解——transformers源码解读
OpenAI triton分享:Triton概述
【李宏毅】2024年公认最好的【LLM大模型】教程!大模型入门到进阶,一套全解决!2024生成式人工智慧-附带课件代码
十分钟搞明白Adam和AdamW,SGD,Momentum,RMSProp,Adam,AdamW
【官方双语】直观解释注意力机制,Transformer的核心 | 【深度学习第6章】
大模型微调实践数据准备/清洗、模型微调、模型评估 全链路案例演示
深度学习网络缝合模块,模块缝模块。思路代码按小白角度讲解。手把手教你缝合(全网最详细教学)
在家怎么训练大模型的——外挂显卡(真的是物理外挂)
图解minicpm-v-2.6源码(debug的形式 一个视频看懂他的网络结构)
图解llama架构 解读源码实现
pytorch基础——多线程并行(通信原语、torchrun介绍)
transformers源码阅读——mixtral模型解读——MoE实现细节
PyTorch深度学习快速入门教程(绝对通俗易懂!)【小土堆】
vllm二次开发——自定义的新模型如何部署在vllm上S1
【研1基本功 (真的很简单)MoE】混合专家模型—作业:写一个MoELoRA
给大模型新人的经验,刷到少走3年弯路!
vLLM源码阅读s1——源码介绍
李沐上海交大讲座,关于读博,工作,创业,金句频出
从transformer到cnn到vit,两个半小时板书搞懂原理(上)
Transformer论文逐段精读【论文精读】