transformers二次开发——为什么要实现自己的sentence-embedding训练代码

发布人

自己踩坑flag-embedding经历，最后通过自己写的训练脚本解决问题。https://github.com/yuanzhoulvpi2017/SentenceEmbedding
不要盲目崇拜别人的仓库
一定要有一套属于自己的方法论

打开封面下载高清视频观看高清视频视频下载器

transformers源码阅读——如何看懂模型代码（以llama为例）

如何丝滑的下载大模型——下载hf的大模型真的会谢(太慢了)

国内的大模型结构和llama有多相似？

transformers更新了啥S2——在国庆的时候更新了啥（闲聊）

OpenAI CTO 离职马斯克疯狂嘲讽奥特曼

transformers源码阅读——Trainer解读系列2_关键方法

AI生成的中式恐怖

强化学习TRL包源码解读S2——PPO

nlp开发利器——vscode debug nlp大工程（最最最优雅的方式）

多模态大模型LLaVA模型讲解——transformers源码解读

transformers二次开发——bge-reranker模型微调流程

transformers源码阅读——llama模型调试

为什么我的模型就没有办法使用ddp——基于bert做embedding任务使用ddp进行训练

vLLM源码阅读s1——源码介绍

transformers源码阅读——transformers包的文件框架介绍

chatglm3源码阅读——吐槽角度

longlora是怎么实现的——如何在transformers的模型上修改的

transformers源码阅读——mixtral模型解读——MoE实现细节

图解llama架构解读源码实现

nlp开发利器——vscode愉快的写nlp代码

transformers源码阅读——gradient_checkpointing详解

python处理GIS数据

transformers二次开发——百度轩辕70b大模型数据调度的实现

transformers源码阅读——neftune的工程实现

如何优雅的修改transformers包的模型结构——面向nlp小白的开发教程

大模型量化是怎么实现的——transformers源码解读

一个视频让你对flash attention2下头（比较FA2和sdpa的效率）

transformers源码阅读——投机采样原理和实现方法

transformers包新功能——一行代码将模型效率提高40%

强化学习TRL包源码解读S1——reward_Trainer

transformers源码阅读——图解mixtral模型——图解MoE细节

transformers疑惑解答S1——transformers是怎么保存模型权重的？

nlp开发利器——vscode如何debug transformers源码(torchrun形式）

transformers模型的批量推理小问题【left padding还是right padding】

10分钟上手Huggingface，轻松调用Bert模型预训练 | 模型下载 | 预训练模型 | 应用实战

强推！吴恩达大佬又出新课了！《Hugging Face中的开源模型》双语字幕，究极通俗易懂！人工智能|AI|机器学习|深度学习

我的pr被transformers官方merge了&如何使用vscode和tensorboard查看训练日志

张雪峰:“别再问我现在还能不能学习网络安全了，学网安/信安的还有出路吗? ”懂的都懂 (网络安全/信息安全)

miniCPM系列S1——技术报告解读（吊打llama2-70b-chat模型？）

【附源码】Python自动化脚本训练AI自动打王者荣耀，全程不需要你有任何操作，AI脚本轻松帮你上大分，简直不要太爽了！

transformers二次开发——为什么要实现自己的sentence-embedding训练代码

transformers源码阅读——如何看懂模型代码（以llama为例）

如何丝滑的下载大模型——下载hf的大模型真的会谢(太慢了)

国内的大模型结构和llama有多相似？

transformers更新了啥S2——在国庆的时候 更新了啥（闲聊）

OpenAI CTO 离职马斯克疯狂嘲讽奥特曼

transformers源码阅读——Trainer解读系列2_关键方法

AI生成的中式恐怖

强化学习TRL包源码解读S2——PPO

nlp开发利器——vscode debug nlp大工程（最最最优雅的方式）

多模态大模型LLaVA模型讲解——transformers源码解读

transformers二次开发——bge-reranker模型微调流程

transformers源码阅读——llama模型调试

为什么我的模型就没有办法使用ddp——基于bert做embedding任务 使用ddp进行训练

vLLM源码阅读s1——源码介绍

transformers源码阅读——transformers包的文件框架介绍

chatglm3源码阅读——吐槽角度

longlora是怎么实现的——如何在transformers的模型上修改的

transformers源码阅读——mixtral模型解读——MoE实现细节

图解llama架构 解读源码实现

nlp开发利器——vscode愉快的写nlp代码

transformers源码阅读——gradient_checkpointing详解

python处理GIS数据

transformers二次开发——百度轩辕70b大模型数据调度的实现

transformers源码阅读——neftune的工程实现

如何优雅的修改transformers包的模型结构——面向nlp小白的开发教程

大模型量化是怎么实现的——transformers源码解读

一个视频让你对flash attention2下头（比较FA2和sdpa的效率）

transformers源码阅读——投机采样原理和实现方法

transformers包新功能——一行代码将模型效率提高40%

强化学习TRL包源码解读S1——reward_Trainer

transformers源码阅读——图解mixtral模型——图解MoE细节

transformers疑惑解答S1——transformers是怎么保存模型权重的？

nlp开发利器——vscode如何debug transformers源码(torchrun形式）

transformers模型的批量推理小问题【left padding还是right padding】

10分钟上手Huggingface，轻松调用Bert模型预训练 | 模型下载 | 预训练模型 | 应用实战

强推！吴恩达大佬又出新课了！《Hugging Face中的开源模型》双语字幕，究极通俗易懂！人工智能|AI|机器学习|深度学习

我的pr被transformers官方merge了&如何使用vscode和tensorboard查看训练日志

张雪峰:“别再问我现在还能不能学习网络安全了，学网安/信安的还有出路吗? ”懂的都懂 (网络安全/信息安全)

miniCPM系列S1——技术报告解读（吊打llama2-70b-chat模型？）

【附源码】Python自动化脚本训练AI自动打王者荣耀，全程不需要你有任何操作，AI脚本轻松帮你上大分，简直不要太爽了！

transformers更新了啥S2——在国庆的时候更新了啥（闲聊）

为什么我的模型就没有办法使用ddp——基于bert做embedding任务使用ddp进行训练

图解llama架构解读源码实现