V
主页
如何理解学习率
发布人
#关于视频 如果你对大语言模型感兴趣但一开始对其一无所知、并非相关专业,也没有机器学习的基础,很难去摸索该如何开始。该怎么办?虽然网上有很多教学视频,然而,挑战在于所讲述概念常常对初学者不够清晰(大部份默认你有机器学习的基础)。而我的这个学习路径将引导你了解人工智能和机器学习的逻辑与常识, 然后帮助你构建自己的大型语言模型。 #关于我 连续创业者。2003年至2007年多伦多大学学习计算机科学。 网站:https://waylandzhang.github.io
打开封面
下载高清视频
观看高清视频
视频下载器
Sora、Stable Diffusion、可灵文生图视频大模型原理讲解
给文字加位置【7】
阿里的语音识别模型SenseVoice底层原理
QKV里的Q啥被叫做Query? #大模型 #transformer
Multi-Head Attention的QKV是什么【12】
《强化学习》第2章 多臂老虎机问题 Multi-Armed Problem
谁都能听懂的Transformer【5】
不需要懂的神经网络【10】
LayerNorm及Softmax概念(概念终)【11】
【18】大模型推理vs.训练的相同与不同
换一个角度理解Transformer中的QKV
Attention的几何逻辑(中)【9】
高度概括聊聊看Transformer都在做什么
如何训练一个写小说的大模型?
Nemotron技术拆解
浅谈模型超参数的设计原理
手写大模型代码(上)( LLM:从零到一)【6】
通过看DeepSeek-v2思考目前大模型学习路径
GPT发展简史【1】
彻底理解Transformer概念(LLM:从零到一)【3】
五分钟秒懂transformer中的神经网络
如何理解#transformer中的学习率?
大语言模型的训练原理(LLM:从零到一)【2】
KAN vs. MLP架构的简单解读
五分钟秒懂层归一化
Transformer里词嵌入+位置信息的深层逻辑
Tokenization文字转数字【6】
VAE变分自编码器的原理与实践
【大模型技术】使用Ollama+Dify搭建一个属于自己的知识库!支持多种文件类型,实现本地部署大模型,真的太好用了!
如何配置deepspeed多卡训练大模型
【7】手写大模型代码(中)( LLM:从零到一)
GPT大语言模型微调原理
【喂饭教程】8分钟学会微调大模型Qwen2,环境配置+模型微调+模型部署+效果展示详细教程!草履虫都能学会~
训练GPT大模型需要花多少钱?【2】
闲聊:Transformer中反向传播+参数权重更新的代码片段演示~
先跟我一起过概念(上)【8】
《强化学习》第3.1-3.5章 MDP 马尔可夫决策过程
反向更新的数学原理
大模型学习课程录播分享
Transformer Attention的QKV完结篇