V
主页
长序列数据的长度对模型性能有什么影响?
发布人
信息爆炸致使互联网上的数据愈趋于多样化、复杂化,智能算法需要处理的序列长度也水涨船高,给传统序列建模方法带来巨大挑战。今天我们共同探讨,当序列长度增加时会给模型性能带来哪些影响?又该如何应对?
打开封面
下载高清视频
观看高清视频
视频下载器
【Stable Diffusion】5款超绝涩涩大模型推荐 ,绝对好用!绅士都在用的SD大模型 新手小白必备 福利大放送!(附资料)
【李宏毅】2024秋《生成式人工智能导论》教程!LLM大模型入门到进阶,比刷剧爽多了!--附带课件代码
怎样自学大模型的分布式训练?
指令微调与常规微调的区别是什么?
前两天面了个大模型工程师,开始感觉很不错,可是工作几天。。。
SFT和RLHF的区别是什么?
scaling law变天 哈佛、斯坦福、MIT名校研究发现 训练数据越多量化损失越大
预训练模型的准确度有多高?
Transformer 模型的自注意机制是如何处理长序列的?
【墙裂推荐】25分钟搞定qwen大模型本地部署+微调法律大模型(只需5G内存)
生成式大语言模型系列直播-第八期《长序列建模技术》
大模型训练、推理、微调;从原理到技术细节的《大模型关键技术》白皮书文档分享
模型剪枝算法是如何实现的
生成式大语言模型系列直播-第六期《指令微调与上下文学习》
哪种情况下适合使用硬件加速来提高模型推断的速度?
多模态大模型中,模态数据的融合是如何进行的?
如果要在大模型上进行RLHF的话,有什么数据集可以训练一个reward 吗?
多任务学习中各loss权重应该如何设计呢?
威斯康星大佬又火了,刚发布的 从零构建大语言模型书 终于搞到了,用pytorch就能搞定大模型!(附书籍)
喂饭教程!25分钟本地部署Qwen2大模型:配置、微调、部署+效果展示,带你训练自己的行业大模型!
模型的超参数调整和网格搜索等方法是否适用?
什么是大模型的涌现能力?
生成式大语言模型系列直播-第九期《模型压缩与高效神经网络》
【限时开放】最新AI人工智能零基础全套课程!探究AI原理+大量实操项目,机器学习/深度学习/神经网络/大语言模型
想学习大语言模型,应该从哪个开源模型开始?
在模型剪枝的过程中,如何确定哪些参数或连接可以被剪掉?
生成式大语言模型系列直播-第十三期《模型测试与验证》
如何让Transformer更高效处理长序列?
注意力机制2024依然强势!多尺度卷积+注意力机制一举拿下高分!模型准确率几乎100%
强化学习和反馈神经网络有什么区别?
如何处理不同模态之间的数据不平衡或者是数据分布不一致的情况?
大语言模型在未来的发展趋势是什么?
【第七期】东大NLP实验室博士完整地剖析RLHF技术方法!
生成式大语言模型系列直播-第十期《分布式训练技术》
生成式大语言模型系列直播-第一期《Transformer基础技术》
LoRA的微调方式为什么是有效的?其中低秩矩阵的作用是什么?
生成类模型是否不需要融入外部知识而使用Prompt就行?不像Encoder那样需要显示的融合知识?
神经网络一键可视化!这个AI神器可以放大网络中的任何一层
语言生成类预训练模型的工作流程是怎么样的?
【Llama3微调全攻略】B站最全教程!手把手教你微调-量化-部署-应用一条龙!