transformers一个非常严重的bug——在使用梯度累计的时候 loss不等效 - 视频下载 Video Downloader

transformers一个非常严重的bug——在使用梯度累计的时候 loss不等效

发布人

看看你有没有遇到这个bug：
条件A：你使用transformers包、llama-factory包、trl包、unsloth包
条件B：进行sft训练、dpo训练等一系列使用到cross-entroy作为loss的训练任务。
条件C：你开启了梯度累计。

如果ABC三个条件叠加起来，那就会触发这个bug。
Enable Gradient Accumulation fix across all models + trainer fully in forward()
参考链接：
https://unsloth.ai/blog/gradient
https://github.com/huggingface/transformers/commit/d9f733625c43158f3fa52377f2f8bf49350160f3
https://github.com/huggingface/transformers/pull/34283
https://huggingface.co/blog/gradient_accumulation

打开封面下载高清视频观看高清视频视频下载器

CVPR'24 | 视觉基础模型大一统？融合CLIP、DINOv2、SAM等，实现分类分割等任务上的SOTA性能

transformers源码阅读——如何看懂模型代码（以llama为例）

2024最新模型Mamba详解，Transformer已死，你想知道的都在这里

“前男友对我说，如果资产不到几千万，他不可能和我结婚”

FastAPI+CrewAI+MySQL+Celery实现AI Agent复杂工作流，支持工作流的并发异步调度和全生命周期状态监测，支持gpt、国产、本地大模型

百年没有突破的基础科学，要被ai打破啦,最近kan网络作者和mit物理大牛泰格马克教授一起发现了新物理方程

【手把手带你实战HuggingFace Transformers-入门篇】基础知识与环境安装

杜蕾斯内涵广告，你看懂了吗？

李沐-大模型训练半年-数据来源不清不白-数据不能公开的原因

李开复透露「GPT5训练遇到困难，O1模型被迫放出来」OpenAI还有很多私货没有发布

大模型微调实践：动手微调一个好玩/好用的大模型

多模态大模型LLaVA模型讲解——transformers源码解读

【LLM学习记录】vLLM全解——推理调度源码解析

【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手！绝对的通俗易懂的大模型应用教程！

Tmux彻底改变我的编程方式

用高铁的电挖比特币算力达到4T 真猛啊！！！

大模型项目失败的十大原因（一）

模型微调中最不需要关注的应该是GPU成本

从0用Numpy搭建可训练LLaMa3模型——山东大学威海数科班重案六组第六学期大作业

“马斯克对ai的看法”

Flash Attention 为什么那么快？原理讲解

为什么我的模型就没有办法使用ddp——基于bert做embedding任务使用ddp进行训练

手把手带你从0到1实现大模型agent

全新的 Windows 12.1 Pro 震撼登场！！

数据降维方法：PCA, t-SNE, UMAP | 动画讲解

孩子铁了心进华为，张雪峰毫无保留

我们一旦不再理解AI的时候 [AlexNet]

李开复：最不容易被AI取代的3个职业｜有你的岗位嘛❓

如何优雅的修改transformers包的模型结构——面向nlp小白的开发教程

vLLM源码阅读s1——源码介绍

我的pr被transformers官方merge了&如何使用vscode和tensorboard查看训练日志

第六课马尔可夫链蒙特卡洛方法

transformers源码阅读——入门（提高nlp工程师的工程能力）

【大模型高效微调】从原理到实战讲明白大模型微调方法LoRA

李沐-大模型提升主要来自数据清洗工的辛勤工作以及老板大方给了那么多卡

【研1基本功（真的很简单）MoE】混合专家模型—作业：写一个MoELoRA

腾讯一面：如何快速判断几十亿个数中是否存在某个数？

Hugging Face 🤗 Transformers.js v3 正式发布 🎉

在家怎么训练大模型的——外挂显卡（真的是物理外挂）

【中字】你最喜欢的编程语言反映了你的性格！