V
主页
What is large langue models?
发布人
#关于视频 如果你对大语言模型感兴趣但一开始对其一无所知、并非相关专业,也没有机器学习的基础,很难去摸索该如何开始。该怎么办?虽然网上有很多教学视频,然而,挑战在于所讲述概念常常对初学者不够清晰(大部份默认你有机器学习的基础)。而我的这个学习路径将引导你了解人工智能和机器学习的逻辑与常识, 然后帮助你构建自己的大型语言模型。 #关于我 连续创业者。2003年至2007年多伦多大学学习计算机科学。 网站:https://waylandzhang.github.io
打开封面
下载高清视频
观看高清视频
视频下载器
QKV里的Q啥被叫做Query? #大模型 #transformer
五分钟秒懂transformer中的神经网络
高度概括聊聊看Transformer都在做什么
大语言模型的训练原理(LLM:从零到一)【2】
【13】Attention的QKV输出的到底是什么?
【18】大模型推理vs.训练的相同与不同
不需要懂的神经网络【10】
如何训练一个写小说的大模型?
如何理解学习率
Multi-Head Attention的QKV是什么【12】
LayerNorm层归一化到底做什么的?
Tokenization文字转数字【6】
大模型实际上就是两个文件【4】
KAN vs. MLP架构的简单解读
如何训练自己的中文大模型分词器tokenizer?
模型与人眼看待图像的区别
GPT大语言模型微调原理
【16】残差连接和Dropout
试试小红书的开源InstantID文生图模型【14】
Transformer里词嵌入+位置信息的深层逻辑
《Attention Is All You Need》论文解读
GPT发展简史【1】
中文微调Llama-3 之抛砖引玉(LoRA、Flash Attention2、 Quantization)
阿里的语音识别模型SenseVoice底层原理
GPT回答推理就像史努比铺铁轨【3】
100万Token窗口长度的大模型背后实现技术原理
Attention的几何逻辑(中)【9】
注意力机制与输出预测(LLM:从零到一)【5】
谁都能听懂的Transformer【5】
通过看DeepSeek-v2思考目前大模型学习路径
彻底理解Transformer概念(LLM:从零到一)【3】
五分钟秒懂层归一化
在Nvidia A10 GPU上跑Llama 3 - 8B开源模型
清晰说明——什么是大语言模型(LLM:从零到一)【1】
LayerNorm及Softmax概念(概念终)【11】
训练GPT大模型需要花多少钱?【2】
前两天面了个大模型工程师,开始感觉很不错,可是工作几天。。。
Attention Visualization 注意力权重矩阵可视化
换一个角度理解Transformer中的QKV
变分自编码器的从零实现与数学原理