V
主页
你还不懂旋转位置编码吗?
发布人
10分钟讲明白旋转位置编码RoPE。
打开封面
下载高清视频
观看高清视频
视频下载器
transformer中位置编码的理解
动画理解Pytorch 大模型分布式训练技术 DP,DDP,DeepSpeed ZeRO技术
Batch Normalization(批归一化)和 Layer Normalization(层归一化)的一些细节可能和你想的并不一样
Flash Attention 为什么那么快?原理讲解
CMU《多模态机器学习|CMU Multimodal Machine Learning, Fall 2023》中英字幕
llama3.1国内可直接使用教程,405B堪称最强开源大模型,API无限调用,迪哥带你怎么玩,手把手教你打造自己的大模型!-人工智能、大模型、深度学习、NLP
大模型修炼之道(三): Llama系列讲解 Llama1,Llama2, Llama3
模型量化一:量化基础 对称量化 非对称量化 极大值量化 零点量化
Llama3.1-8B-微调-部署
B站强推!这可能是唯一能将LLama大模型讲清楚的教程了,LLama系列复现-微调-预训练-应用实例解读,草履虫都能看懂!人工智能/多模态大模型
77、Llama源码讲解之GroupQueryAttention和KV-cache
模型量化六:QLoRA 4bit 量化 NormalFloat4 量化
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention
LLAMA3.1 全球最大开源大模型 405B 详细解读!#大模型 #llama
许久不见,小扎已经用东北话发布Llama3.1了!
炸裂:上海保姆机器人要上岗!人工智能机器人
10分钟搞明白如何设置大模型推理参数,top_k,top_p, temperature, num_beams。温度,beam search。
小扎放大招,llama彻底开源,我们又要遥遥领先了
(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程!附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI
LLama3.1为什么不采用MOE?
为什么LLM认为:9.11大于9.8?
我居然只花一小时就学懂了如何通过重编程LLM进行时间序列预测!论文解读,附原文+代码!!!(llm大模型/跨模态交互/时序预测/人工智能)
大模型修炼之道(二): GPT系列GPT1,GPT2,GPT3,GPT4
从头实现transformer 01 词嵌入与位置编码
约翰霍普金斯大学《GPU编程(并发编程、并行编程、面向企业、CUDA高级库)|GPU Programming》
【Kaggle竞赛】手把手教学,全网最细致的Kaggle项目实战教程!赛题解析/代码详解 LLM/NFL/OTTO/ICR 机器学习/深度学习/神经网络
AI 工程师都应该知道的GPU工作原理,TensorCore
Google发布Transformers新架构:Tandem-双剑合璧自回归模型+大型块模型模型!
知识斗地主:解析RAG大模型中复杂的知识冲突
中国信通院:99个LLM大模型应用落地案例集,针对大模型行业落地,大模型应用,私有化部署(附PDF)
【CUDA Mode 2024】中英字幕
RNN卷土重来:基于门控记忆槽的线性注意力机制
模型量化四:量化感知训练 QAT pytorch里进行量化感知训练
图解GPT可视化Transformer直观理解大模型运行原理
大模型训练如何计算显存占用
APILayer集合了上百个API,在GitHub上获得30万颗星星,能够满足开发者多样化的开发需求,涉及日常生活和专业领域,家人们,赶快去了解一下吧!
Mistral NeMo:目前最强大的大语言模型!全面测试击败Qwen2与DeepSeek-V2及其他
强推!不愧是公认的讲的最好的【AI大模型全套教程】李宏毅大佬12小时带你从入门到进阶,一套全解决!
Transformer模型能否进行隐式的推理?一个关于Grokking和泛化的深入探索
B站强推!2024公认最通俗易懂的【Transformer】教程,125集付费课程(附资料)神经网络_注意力机制_深度学习_BERT_大模型