V
主页
不需要懂的神经网络【10】
发布人
#关于视频 如果你对大语言模型感兴趣但一开始对其一无所知、并非相关专业,也没有机器学习的基础,很难去摸索该如何开始。该怎么办?虽然网上有很多教学视频,然而,挑战在于所讲述概念常常对初学者不够清晰(大部份默认你有机器学习的基础)。而我的这个学习路径将引导你了解人工智能和机器学习的逻辑与常识, 然后帮助你构建自己的大型语言模型。 #关于我 连续创业者。2003年至2007年多伦多大学学习计算机科学。 网站:https://waylandzhang.github.io
打开封面
下载高清视频
观看高清视频
视频下载器
【13】Attention的QKV输出的到底是什么?
五分钟秒懂transformer中的神经网络
QKV里的Q啥被叫做Query? #大模型 #transformer
给文字加位置【7】
换一个角度理解Transformer中的QKV
高度概括聊聊看Transformer都在做什么
大语言模型的训练原理(LLM:从零到一)【2】
LayerNorm及Softmax概念(概念终)【11】
如何训练一个写小说的大模型?
Nemotron技术拆解
清晰说明——什么是大语言模型(LLM:从零到一)【1】
Sora、Stable Diffusion、可灵文生图视频大模型原理讲解
Multi-Head Attention的QKV是什么【12】
手写大模型代码(上)( LLM:从零到一)【6】
Transformer Attention的QKV完结篇
《Attention Is All You Need》论文解读
解决大模型幻觉《OPERA - Alleviating Hallucination》论文导读
Attention的几何逻辑(中)【9】
【7】手写大模型代码(中)( LLM:从零到一)
KAN vs. MLP架构的简单解读
在Nvidia A10 GPU上跑Llama 3 - 8B开源模型
注意力机制与输出预测(LLM:从零到一)【5】
通过看DeepSeek-v2思考目前大模型学习路径
训练GPT大模型需要花多少钱?【2】
100万Token窗口长度的大模型背后实现技术原理
中文微调Llama-3 之抛砖引玉(LoRA、Flash Attention2、 Quantization)
GPT大语言模型微调原理
如何训练自己的中文大模型分词器tokenizer?
【18】大模型推理vs.训练的相同与不同
这才是科研人该学的!一口气学完六大时间序列任务-CNN-LSTM-Attention神经网络时间序列预测、LSTM股票预测、Time-LLM、Informer
谁都能听懂的Transformer【5】
Attention Visualization 注意力权重矩阵可视化
模型与人眼看待图像的区别
Transformer里词嵌入+位置信息的深层逻辑
反向传播+参数更新代码演示
如何配置deepspeed多卡训练大模型
闲聊:Transformer中反向传播+参数权重更新的代码片段演示~
彻底理解Transformer概念(LLM:从零到一)【3】
反向更新的数学原理
VAE变分自编码器的原理与实践