V
主页
大模型训练:MOE模型架构
发布人
如何用更低的资源消耗训练出更加有效的大模型,看看Goolge的MOE稀疏模型架构
打开封面
下载高清视频
观看高清视频
视频下载器
Deepspeed大模型分布式框架精讲
LORA大模型微调算法原理解析
知识蒸馏:小模型向大模型学习
GPT-o2推理超神,GPT-o1为何被 “冷落”? 大模型训练
VLLM ——高效GPU训练框架
更快更强的Transformer升级模型:Transformer-XL
ToolFormer模型:会调用API解决问题的大模型训练方法
大模型训练、推理、微调;从原理到技术细节的《大模型关键技术》白皮书文档分享
吹爆!这绝对是你见过最通俗易懂的大模型微调实战教程,手把手带你实现大模型预训练和模型微调!!
GPT-o2推理超神,GPT-o1为何被 “冷落”?大模型训练
ChatGLM与ChatGPT什么区别??
BERT模型介绍
10月全网最新首发!【大模型预训练与微调】这绝对是目前为止最强的AI大模型Llama3原理代码精讲与部署微调评估实战!(人工智能、深度学习、机器学习、AI)
AI训练中解决样本不平衡问题
【墙裂推荐!】Hugging Face 模型微调训练-基于BERT的中文评价情感分析
思维链:COT/TOT/GOT大模型原理介绍
【全网首发】掌握大模型训练屠龙术,实现预训练与wandb可视化训练过程 | 详解预训练完整流程 | 了解企业级LLM训练硬件指南 | 详解Llama3架构
【B站首发】封装OpenAI风格API调用私有化训练大模型,现场手写代码 | 大模型训练项目完整落地 | 前端调用私有化大模型对话 | 实测模型对话性能
太空超算中心崛起,AI 迈向星际能源时代?大模型训练算力中心
ChatGLM 130B大模型训练教训总结
FlashAttention与标准注意力机制模型比较
transformer模型机制
多模态大模型综述: 数据、训练任务、架构分类、大模型实战训练
国产大模型陷入技术迷局与 商业困境!市面所见模型主要分两类:其一为基础通用大模型,像文心一言、通义千问等大厂力作!其二则是行业专用模型,在政务、医疗、金融等细分
深入分析baichuan2(百川)大模型
李开复透露:GPT-5训练受阻,OpenAI仍有大量先进技术未发布
miniGPT4:多模态图文理解训练
flashattention原理深入分析
大模型研讨课第一期(共10期)
RLHF大模型加强学习机制原理介绍
【2024最火】AI大模型训练教程:只用pytorch 从零训练自己的大模型!AI大佬带你轻松转行AI 大模型源码讲解 大模型学习路线 人工智能课程
2025年五大惊人AI趋势!人工智能技术
Alibi模型原理分析
SentenceBert模型:文本语义去重
盘古大模型
VAE变分自编码器模型
思维链大模型应用代码实例讲解
人类文明的加速器:如何训练大模型求解推导数学问题?
【合集】从零训练专属大模型技术实战|Llama 3架构大模型训练实战|稳定高质量对话大模型训练|分词器训练+预训练+全量指令微调全流程技术实战
AI算法面试题:word2vec训练方法