V
主页
transformers集成了Liger Kernel:在llm训练的时间更少、显存使用的更少
发布人
https://github.com/huggingface/transformers/pull/32860 https://github.com/huggingface/transformers/issues/32861 https://github.com/linkedin/Liger-Kernel Liger (Linkedin GPU Efficient Runtime) Kernel is a collection of Triton kernels designed specifically for LLM training. We have implemented Hugging Face Compatible RMSNorm, RoPE, SwiGLU, CrossEntropy, FusedLinearCrossEntropy, and more to come. It can effectively increase multi-GPU training throughput by 20% and reduces memory usage by 60%. The kernel works out of the box with flash attention, PyTorch FSDP, and Microsoft DeepSpeed. We welcome contributions from the community to gather the best kernels for LLM training.
打开封面
下载高清视频
观看高清视频
视频下载器
训练LLaVA模型(数据集构建、基于Trainer的训练框架搭建)——LLaVA系列
多模态大模型LLaVA模型讲解——transformers源码解读
为什么我的模型就没有办法使用ddp——基于bert做embedding任务 使用ddp进行训练
transformers源码阅读——入门(提高nlp工程师的工程能力)
自定义多模态大模型LLaVA——LLaVA系列
nlp开发利器——vscode如何debug transformers源码(deepspeed形式)
【Agent+RAG】10小时博士精讲AI Agent(人工智能体)系列—提示工程、文本大模型、GPT...
如何丝滑的下载大模型——下载hf的大模型真的会谢(太慢了)
transformers二次开发——bge-reranker模型微调流程
大模型量化是怎么实现的——transformers源码解读
transformers源码阅读——Trainer解读系列2_关键方法
图解minicpm-v-2.6源码(debug的形式 一个视频看懂他的网络结构)
vllm二次开发——自定义的新模型如何部署在vllm上S1
强化学习TRL包源码解读S2——PPO
transformers二次开发——为什么要实现自己的sft代码
transformers源码阅读——transformers包的文件框架介绍
Qwen2.5-Coder接入Cursor,顶尖大模型在个人电脑帮你写代码! | 本地运行集成代码开发器LLM丨一站式搞定低代码开发全流程!
我的pr被transformers官方merge了&如何使用vscode和tensorboard查看训练日志
强化学习TRL包源码解读S1——reward_Trainer
transformers源码阅读——mixtral模型解读——MoE实现细节
使用vscode愉快的阅读transformers源码
transformers源码阅读——图解mixtral模型——图解MoE细节
阅读lora源码的视频准备
transformers疑惑解答S1——transformers是怎么保存模型权重的?
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
手把手带你发现transformers的bug 并且修复它!
lora源码解读
nlp开发利器——vscode如何debug transformers源码(torchrun形式)
【斯坦福吴恩达】2024公认的最好的扩散模型原理课程-How Diffusion Models Work~
transformers更新了啥S2——在国庆的时候 更新了啥(闲聊)
transformers源码阅读——neftune的工程实现
【2024最新】轻松掌握提示词工程Prompt Engineering,超简单详细,包教会的!!!
lora源码解读
【本地微调大模型】不吃配置,本地笔记本上轻松微调Llama3,Windows中文微调教程(附弱智吧训练训练集)
GPT-o2推理超神,GPT-o1为何被 “冷落”? 大模型训练
chatgpt集成到微信群聊里面
大模型做 OCR? Llama OCR 和 Zerox 介绍
微软的graphrag都在用的向量数据库,到底有多好用——lancedb数据库介绍
喂饭教程!25分钟本地部署Qwen2大模型:配置、微调、部署+效果展示,带你训练自己的行业大模型!
总结