V
主页
[损失函数设计] 为什么多分类问题损失函数用交叉熵损失,而不是 MSE
发布人
本期 code:https://github.com/chunhuizhang/llm_aigc/blob/main/tutorials/nn_basics/loss/mse_crossentropy.ipynb 交叉熵损失等价于最大似然:BV19k4y1M7cJ
打开封面
下载高清视频
观看高清视频
视频下载器
一个视频彻底搞懂交叉熵、信息熵、相对熵、KL散度、交叉熵损失、交叉熵损失函数、softmax函数、softmax求概率、各种熵的公式
六分钟精通交叉熵损失函数原理及实例
AI算法面试:交叉熵为什么可以作为分类的损失函数???
什么是交叉熵误差,多分类中的交叉熵损失函数
“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”
【10分钟】了解香农熵,交叉熵和KL散度
信息量 |熵 | 交叉熵 |KL散度 (相对熵)|交叉熵损失函数
【官方双语】交叉熵损失函数怎么进行反向传播来优化神经网络参数?
“损失函数”是如何设计出来的?直观理解“最小二乘法”和“极大似然估计法”
【数之道 32】6分钟理解机器学习核心知识之<损失函数>
【官方双语】一个视频理解交叉熵 Cross Entropy
【手推公式】从二分类(二项分布)到多分类(多项分布),最大似然估计与交叉熵损失的等价
Qwen2-VL-7B实现精准pdf转markdown,从原理、代码实现、存在问题以及优化方向全流程讲解
你真的理解交叉熵损失函数了吗?
[数学!数学] 最大似然估计(MLE)与最小化交叉熵损失(cross entropy loss)的等价性
【小萌五分钟】机器学习 | 模型的评估: 均方误差 MSE
【手推公式】从 logodds 到 sigmoid 概率化输出,用于 LR、XGBoost 的分类任务
曹文祺:复杂网络的低秩假设 - 复杂系统自动建模读书会第二季方法论导读
十分钟搞明白Adam和AdamW,SGD,Momentum,RMSProp,Adam,AdamW
[全栈算法工程师系列] python deepcopy(深拷贝,clone,克隆)性能优化(浅拷贝+递归)
吹爆!这绝对是南京大学最出名的LLAMA3教程了没有之一,llama3原理代码精讲与微调量化部署实战,通俗易懂太适合小白了!人工智能|机器学习|深度学习
[LLMs tuning] 05 StackLlama、SFT+DPO(代码组织、数据处理,pipeline)
变分自编码器可视化解释
Flash Attention 为什么那么快?原理讲解
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[python 多进程、多线程以及协程] 01 关于进程(multiprocessing,pid、ppid)
[工具使用] tmux 会话管理及会话持久性
[LLMs tuning] 06 多轮对话 qlora SFT(Multi-turn Conversation)
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
[python 多进程、多线程] 03 GIL、threading、多进程,concurrent.futures
[pytorch] BN、LN、RMSNorm 及 pre LN vs. post LN 对比,标准化
[矩阵微分] 标量/矢量关于矢量/矩阵的矩阵微分,深度学习框架反向传播
[概率 & 统计] KL 散度(KL div)forward vs. reverse
[手推公式] sigmoid 及其导数 softmax 及其导数性质(从 logits 到 probabilities)
【有学的价值】偏微分方程
[LangChain] 04 LangGraph 构建复杂 RAG workflow(Self-corrective)
Andrej Karpathy:大模型10亿参数就够了,蒸馏技术效果非常好!
Llama 3.1论文精读 · 5. 模型训练过程【论文精读·54】