V
主页
transformers源码阅读——图解mixtral模型——图解MoE细节
发布人
MoE-transformers和传统的transformers有什么区别 Mixtral模型是怎么实现MoE的,模型图解
打开封面
下载高清视频
观看高清视频
视频下载器
transformers源码阅读——如何看懂模型代码(以llama为例)
transformers源码阅读——mixtral模型解读——MoE实现细节
图解llama架构 解读源码实现
transformers源码阅读——transformers包的文件框架介绍
如何丝滑的下载大模型——下载hf的大模型真的会谢(太慢了)
transformers源码阅读——Trainer解读系列2_关键方法
vLLM源码阅读s2——是如何进行离线推理的
chatglm3源码阅读——吐槽角度
nlp开发利器——vscode debug nlp大工程(最最最优雅的方式)
如何优雅的修改transformers包的模型结构——面向nlp小白的开发教程
transformers疑惑解答S1——transformers是怎么保存模型权重的?
transformers一个非常严重的bug——在使用梯度累计的时候 loss不等效
transformers源码阅读——llama模型调试
transformers二次开发——(定义自己的数据加载器 模型 训练器)bge模型微调流程
longlora是怎么实现的——如何在transformers的模型上修改的
强化学习TRL包源码解读S1——reward_Trainer
transformers二次开发——为什么要实现自己的sft代码
transformers源码阅读——投机采样原理和实现方法
lora源码解读
为什么我的模型就没有办法使用ddp——基于bert做embedding任务 使用ddp进行训练
nlp开发利器——vscode如何debug transformers源码(deepspeed形式)
谁是最人气的LLM微调工具?
vllm二次开发——自定义的新模型如何部署在vllm上S1
一个视频让你对flash attention2下头(比较FA2和sdpa的效率)
nlp开发利器——vscode如何debug transformers源码
miniCPM系列S1——技术报告解读(吊打llama2-70b-chat模型?)
使用vscode愉快的阅读transformers源码
图解minicpm-v-2.6源码(debug的形式 一个视频看懂他的网络结构)
transformers模型的批量推理小问题【left padding还是right padding】
transformers集成了Liger Kernel:在llm训练的时间更少、显存使用的更少
RAG系列——这款开源向量数据库产品竟然这么好用......
【大模型面试】Flash Attention面试连环炮,淘汰80%面试竞争者
我的pr被transformers官方merge了&如何使用vscode和tensorboard查看训练日志
温和的走进深度学习(下)
30分钟学会Qwen2.5-3B本地部署LightRAG,完胜GraphRAG!从模型部署到源码解读,带你全流程解析,速度快,效果好,落地部署更方便!!!
【全126集】目前B站最系统的Transformer教程!入门到进阶,全程干货讲解!拿走不谢!(神经网络/NLP/注意力机制/大模型/GPT/RNN)
11月17日最新ChatGPT4.0使用教程,国内版免费网站,电脑手机版如何免下载安装通用2024
文本转向量教程s3——Trainer二次开发(embedding为例)
文本转向量教程s1——总体介绍
在家怎么训练大模型的——外挂显卡(真的是物理外挂)