V
主页
分布式训练中不同硬件架构会对性能产生怎样的影响?
发布人
当我们谈及深度学习模型的分布式训练时,选择合适的硬件架构是至关重要的一环。不同的硬件,如GPU、TPU以及其他专用加速器,在分布式训练中发挥着不同的作用。在本视频中,我们将深入探讨这些硬件架构的特点以及它们对性能的影响。
打开封面
下载高清视频
观看高清视频
视频下载器
生成式大语言模型系列直播-第十三期《模型测试与验证》
指令微调与常规微调的区别是什么?
如何验证评价模型的正确性?
大模型预训练和微调的区别是什么?
LoRA的微调方式为什么是有效的?其中低秩矩阵的作用是什么?
如何利用硬件加速来提高移动设备上的机器翻译性能
神经网络都是Encoder-Decoder架构吗?
移动智能设备与传统电脑上的机器翻译有什么不同
怎样自学大模型的分布式训练?
高并发和高可用有什么区别?
在多任务学习的框架下,如何选择和设计合适的学习任务?
机器翻译产品化及高可用架构设计
生成式大语言模型系列直播-第一期《Transformer基础技术》
模型的超参数调整和网格搜索等方法是否适用?
多目标优化和多任务学习的区别是什么?
深度学习中,如果手上的数据量较少,还需要划分验证集和测试集吗?
对于小型或初创公司,在资源有限的情况下,如何确定高并发和高可用策略的实施优先级?
论文解读 | 多任务学习在语音翻译的应用
想学习大语言模型,应该从哪个开源模型开始?
想学习大语言模型,应该从哪个开源模型开始?
多语言机器翻译的技术与应用
【第七期】东大NLP实验室博士完整地剖析RLHF技术方法!
大模型与传统模型的韩语翻译性能比较
生成式大语言模型系列直播-第六期《指令微调与上下文学习》
机器翻译与人工翻译相比有哪些优势和劣势?
上下文学习在大语言模型中的作用是什么?
如何有效地处理大模型训练中的梯度爆炸或者是梯度消失等数值稳定性问题?
Niutrans.NMT构建高效机器翻译系统
模型剪枝算法是如何实现的
预训练模型到ChatGPT之间的技术路线是怎样的?
MIT《TinyML和高效深度学习计算L18-Diffusion Model|EfficientML.ai 24Fall MIT 6.5940》deepseek
大模型时代下,多语言翻译技术的性能和效果是否有了显著的提升?
为何相同的模型在不同测试集上表现迥异?
生成式大语言模型系列直播-第五期 《大语言模型发展与现状》
在大模型训练的过程中如何有效的管理和处理海量数据?
生成式大语言模型系列直播-第四期《预训练基础:生成模型》
如何让Transformer更高效处理长序列?
生成式大语言模型系列直播-第九期《模型压缩与高效神经网络》
GPT等大模型会让我们实现通用人工智能吗
面向移动智能设备的机器翻译技术与应用