V
主页
从0用Numpy搭建可训练LLaMa3模型——山东大学威海数科班重案六组第六学期大作业
发布人
从0用Numpy搭建可训练LLaMa3模型——山东大学威海数科班重案六组第六学期大作业 组员白锦帆、刘芳菲、赵泽奇、孙阳、常致铭 我们做了什么? - 用Numpy复现了LLaMa架构的LLM - 可以开启KV cache - 并且这个LLaMa是可以训练的,这是因为我们用Numpy搭了一个深度学习框架 - 也可以在GPU上跑的(使用Cupy) - 在这个架构上,我们分别实现了一个0.2b的baby llama模型,和一个7b的Atom7b中文LLaMa模型
打开封面
下载高清视频
观看高清视频
视频下载器
2024NJUNLP夏令营-南京大学自然语言处理组(南大NLP)
【研1基本功 (真的很简单)Group Query-Attention】大模型训练必备方法——bonus(位置编码讲解)
【全748集】南京大学终于把AI大模型(LLM)讲清楚了!通俗易懂,2024最新内部版!拿走不谢,学不会我退出IT圈!
77、Llama源码讲解之GroupQueryAttention和KV-cache
轻量化垃圾桶满溢检测:各种数据增强方法--山东大学威海21数科班重案六组大作业1月部分
从零开始手搓一个LLM(一)把参数缩减到足够单卡训练的NanoGPT
【山大威海数科班】暑假大作业——小车无人驾驶
轻量化垃圾桶满溢检测:各种目标检测模型--山东大学威海21数科班重案六组大作业11月部分
【精校】“让我们重现GPT-2(1.24亿参数)!”AI大神Andrej Karpathy最新4小时经典教程 【中英】
80余种模型集成学习只为预测风电:山东大学威海数科班重案六组大作业
【迪哥谈AI】还不懂Llama3的有救了?迪哥终于把从零到一实现Llama3大模型讲清楚了!一个非常落地的AI大模型项目!
从0开始训练1.4b中文大模型的经验分享
当各种时间序列模型用于风电:山东大学威海数科班大作业重案六组
姚顺雨-语言智能体博士答辩 Language Agents: From Next-Token Prediction to Digital Automation
78、Llama源码讲解之Transformer
垃圾桶溢出检测最终部分-山东大学威海数科班重案六组大作业
约翰霍普金斯大学《GPU编程(并发编程、并行编程、面向企业、CUDA高级库)|GPU Programming》
【Proof-Trivial】数学视角下的Transformer【MIT数学系】
第二十课:MoE
【深度学习基本功!启动!】带你手敲Transformer代码之-Embedding篇!-神经网络/pytorch深度学习
3D Gaussian Splatting代码解读第一期(Gaussian_module|Camera)
数据的视觉效果可以多丰富?——山东大学威海21数科重案六组大作业5月部分
【黑马博学谷2024】AI大模型训练营1期
基于大语言模型的笔记内容表征推荐系统
milvus向量数据库线上部署+RAG实现文本问答
Llama3模型,从零构件复现,使用RLHF方法训练.代码实战.
姚顺雨-从语言模型到语言智能体(From Language Models to Language Agents)
InternLM 2.5 开源啦,InternLM2.5-7B-Chat登顶Hugging Face OpenLLM Leaderboard 12B以下榜首!
怎样用百度AI做一个智能问答系统?山东大学威海数科班重案六组大作业中期
VSCode代码阅读神器正式发布
利用负样本促进大模型推理能力的蒸馏
DeepPose简介
智话未来—山东大学威海21数科重案六组大作业
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
神经网络是如何联想和记忆的?——Hopfield网络讲解
方差全面解疑!最有梗的一次数学讲解视频,有你想听的!
云计算和51单片机求助机-山大威海大一上作业D
李沐-除非你是专家否则不建议搞图神经网络
如何打通企业微信和微信-山大威海大一上作业A
浅谈计算机、人工智能方向科技论文撰写技巧