V
主页
大模型视觉规化、量化、Text-to-SQL
发布人
讲者及报告简介: 1. 19:00-19:20 岑俊,香港科技大学博士四年级学生,导师为陈启峰教授。曾在MSRA,上海AI Lab,阿里达摩院实习。研究兴趣为多模态大模型,机器人。 报告题目:Using Left and Right Brains Together: Towards Vision and Language Planning 报告简介:大型语言模型(LLMs)和多模态大模型(LMMs)在各种任务上展现出了惊人的决策能力。然而,它们本质上在语言空间内进行规划,缺乏视觉和空间想象能力。相比之下,人类在思考过程中利用大脑的左右半球进行语言和视觉规划。因此,在这项工作中,我们引入了一种新颖的视觉-语言规划框架,以对任何形式的输入任务执行并行的视觉和语言规划。我们的框架结合了视觉规划以捕捉复杂的环境细节,同时语言规划增强了整体系统的逻辑连贯性。 李师尧,清华大学电子系博士四年级学生,导师为汪玉教授。研究兴趣为模型压缩、软硬件系统设计。 报告题目:Evaluating Quantized Large Language Models 报告简介:量化是减少大语言模型的存储和计算开销的一种常用技术。为了满足不同场景下的高效性和性能要求,对量化大语言模型进行全面评估对于指导量化方法的选择至关重要。这项工作评估了量化对11个模型族(包括OPT、LLaMA2、Falcon、Bloomz、Mistral、ChatGLM、Vicuna、LongChat、StableLM、Gemma和Mamba,参数范围从125M到180B)的Weight、Activation和KV Cache的影响。评估涵盖了五种类型的任务:基本自然语言处理、涌现能力、可信度、对话任务以及长文本任务。此外,本工作还评估了最新的量化方法以展示其适用范围。本工作系统性地总结了量化带来的影响,提出了量化技术的使用建议,并指出了未来的研究方向。 李好洋,中国人民大学博士三年级学生,导师为李翠平教授与张静教授。 报告题目:CodeS: Towards Building Open-source Language Models for Text-to-SQL 报告简介:近年来,语言模型(Language Model)在text-to-SQL任务上展现出了令人印象深刻的性能。然而,该领域大多数SOTA方法依赖于强大但闭源的大型语言模型,如GPT-3.5和GPT-4,这可能带来模型架构不清晰、数据隐私风险和昂贵的推理开销等限制。为了解决这些限制,我们提出了CodeS,一系列专为text-to-SQL任务预训练的、参数量从1B到15B不等的语言模型。CodeS是一个完全开源的语言模型,它以更小的参数规模实现了更高的准确率。此外,我们提出了一种新的prompt构造策略以实现更精准的模式链接,并提出了一种新型的双向数据增强技术,以便快速适应不同领域。我们在多个数据集上进行了全面评估,包括但不限于广泛使用的Spider基准,新发布的BIRD基准等。实验结果显示,我们的CodeS在几乎所有具有挑战性的text-to-SQL基准测试上都达到了新的SOTA准确率和鲁棒性。 主持人:姚云志,浙江大学博士三年级学生,导师为陈华钧和张宁豫教授。研究兴趣为语言模型知识增强研究兴趣为语言模型知识增强与知识编辑。 panel;智能体视角下的语言模型:泛化与幻觉的辨析,知识表达与应用的探讨 ● 模型是如何表达知识的?在多模态的场景下这些知识是如何相互影响相互作用的? ● 语言模型中泛化性(Generalizability)和幻觉性(Hallucination)是同源的吗?语言模型是否可以完全丢掉幻觉性,只保留泛化性? ● 语言模型在未来机器人中的应用形态是怎么样的? ● 智能体是大模型与现实交互的载体吗?
打开封面
下载高清视频
观看高清视频
视频下载器
【大模型实战】深度解析Transformers模型量化!!!
ACL'24杰出论文|LM-Steer: 词向量是语言模型的方向盘
NeurIPS'24预讲会|AI 4 Sceience 6篇工作:全局优化控制、自动化细胞分类、3D半监督对比学习等
NeurIPS'24预讲会|大语言模型12篇工作:多智能体协作、端到端信息检索、高效微调架构、不确定性感知规划等
健忘症福音...Rewind 平替...自动记录屏幕的 AI 应用来啦
CVPR 2024最佳学生论文|BioCLIP:用于生命树的视觉基础模型
12篇NeurIPS'24|机器学习与数据科学:Lambda、协作世界模型、多域多模态时间序列数据集等
微软开源1.58 bit量化推理 cpu也能跑100B模型 x86能提速6倍
Mamba:颠覆 Transformer 的全新架构?
开源可商用的AI数字人项目,最高支持4k分辨率
上个视频莫名火爆了,感恩一下,开源前端 3D Three.js
ICML 2024|Efficient LLM Group
【PhD Debate-15】因果推理(Causal Inference)与时间序列(Time Series)
【硬核开源】学生党半年完成多功能心电监护仪,详解视频
MaxKB:打造企业运行的万事通
KDD'24最佳学生论文奖一作分享|Dataset Regeneration for Sequential Recommendation
大模型智能体驱动的引导式推荐初探-冯福利教授|AI 2000学者专场
Follow-下一代信息浏览器
AgentReview: 利用 LLM Agents 探究同行评审机制 |EMNLP oral 靳轶乔
开源永不停止 每日新增 Three.js 案例
ChatGLM大模型应用构建——解决方案技术总监手把手教你如何结合大模型设计产品
【AI TIME PhD Debate-12】底层视觉研究,我们应该往哪走?
[即将开源]目前进展很顺利,驱动波形和后级供电都正常。 项目:一个体积很小的正弦波逆变器
如何基于GLM打造行业模型?【ChatGLM干货分享】
ACL 2024|浙江大学软件学院专场
ACL 2023 自然语言处理顶会-大模型专题:MVP、超关系知识图谱、CFSum、大模型文本生成等
大语言模型—张宁豫 吕鑫 罗凌 刘潇 朱红 张绍磊 邓程【大模型嘉年华0104下午】
如何创建智能体:从概念、应用场景、技术原理到实践
【开源】几十块制作不输几百的护眼工作台灯
【Qt入门向】认识Qt对象模型,创建第一个Qt程序:九九乘法表
17篇 NeurIPS'24| 大语言模型:价值对齐、文化理解、冲突缓解、推荐优化等
8篇NeurIPS'24|计算机视觉:Vista、分割模型、自我蒸馏等
ECCV'24One-DM: One-Shot Diffusion Mimicker for Handwritten Text Generation 华南理代港
大模型知识机理与编辑
清华 MotionCLR:AI 动作编辑模型
永远在线的个人全栈ai开发平台部署教程,cloudflare pages+魔改强化版bolt+free ai api=全能开发
智谱BigModel大模型应用共学营 | 带你入门应用开发 | 第一季【完结撒花🎉】
视频理解中的时空特征学习
创建自己的任务管理系统-任务数据管理【开源无代码开发平台NocoBase教程】
NeurIPS 2023预讲会(一):CoBEVFlow、组合性泛化、节点分类、仿人类联想学习等