V
主页
如何让Transformer更高效处理长序列?
发布人
Transformer作为自然语言处理领域的巨星,已经在机器翻译、文本生成等任务中展现了惊人的能力。然而,当面对长序列数据时,其性能可能受到挑战,本期我们一同探讨如何让Transformer模型更高效地处理长序列?
打开封面
下载高清视频
观看高清视频
视频下载器
生成式大语言模型系列直播-第十三期《模型测试与验证》
在多任务学习的框架下,如何选择和设计合适的学习任务?
高并发和高可用有什么区别?
生成式大语言模型系列直播-第十二期《大语言模型的多模态能力》
移动智能设备与传统电脑上的机器翻译有什么不同
为何相同的模型在不同测试集上表现迥异?
怎样自学大模型的分布式训练?
生成式大语言模型系列直播-第十期《分布式训练技术》
多目标优化和多任务学习的区别是什么?
生成式大语言模型系列直播-第一期《Transformer基础技术》
生成式大语言模型系列直播-第八期《长序列建模技术》
指令微调与常规微调的区别是什么?
memoQ翻译结果为提示超过qps最大限制为5,怎么解决?
生成式大语言模型系列直播-第十一期《大语言模型的多语言能力》
大模型预训练和微调的区别是什么?
论文解读 | 多任务学习在语音翻译的应用
生成式大语言模型系列直播-第四期《预训练基础:生成模型》
MIT《TinyML和高效深度学习计算L18-Diffusion Model|EfficientML.ai 24Fall MIT 6.5940》deepseek
想学习大语言模型,应该从哪个开源模型开始?
黄仁勋主旨演讲以及孙正义对话:NVIDIA人工智能峰会·日本 2024.11.13【中英精校完整版】
模型剪枝算法是如何实现的
模型的超参数调整和网格搜索等方法是否适用?
对于小型或初创公司,在资源有限的情况下,如何确定高并发和高可用策略的实施优先级?
生成式大语言模型系列直播-第三期《预训练基础:编码模型》
预训练和直接训练的区别是什么?
神经网络都是Encoder-Decoder架构吗?
LoRA的微调方式为什么是有效的?其中低秩矩阵的作用是什么?
前方高能,这27个变态AI,一定要偷偷用起来!
预训练模型到ChatGPT之间的技术路线是怎样的?
在模型剪枝的过程中,如何确定哪些参数或连接可以被剪掉?
在多语言翻译中,大语言模型与传统方法相比有哪些优势和局限性?
OpenWebUI+Ollama本地部署保姆级教程(非Docker),轻松搭建大语言模型!
对比模型蒸馏和参数量化,他们在将大模型的知识传递给小模型方面有什么异同?
【第七期】东大NLP实验室博士完整地剖析RLHF技术方法!
生成式大语言模型系列直播-第九期《模型压缩与高效神经网络》
在大模型训练的过程中如何有效的管理和处理海量数据?
GPT等大模型会让我们实现通用人工智能吗
机器翻译产品化及高可用架构设计
分布式训练中不同硬件架构会对性能产生怎样的影响?
长序列数据的长度对模型性能有什么影响?