大模型视觉规化、量化、Text-to-SQL

发布人

讲者及报告简介：
1.  19:00-19:20
岑俊，香港科技大学博士四年级学生，导师为陈启峰教授。曾在MSRA，上海AI Lab，阿里达摩院实习。研究兴趣为多模态大模型，机器人。
报告题目：Using Left and Right Brains Together: Towards Vision and Language Planning
报告简介：大型语言模型（LLMs）和多模态大模型（LMMs）在各种任务上展现出了惊人的决策能力。然而，它们本质上在语言空间内进行规划，缺乏视觉和空间想象能力。相比之下，人类在思考过程中利用大脑的左右半球进行语言和视觉规划。因此，在这项工作中，我们引入了一种新颖的视觉-语言规划框架，以对任何形式的输入任务执行并行的视觉和语言规划。我们的框架结合了视觉规划以捕捉复杂的环境细节，同时语言规划增强了整体系统的逻辑连贯性。

李师尧，清华大学电子系博士四年级学生，导师为汪玉教授。研究兴趣为模型压缩、软硬件系统设计。
报告题目：Evaluating Quantized Large Language Models
报告简介：量化是减少大语言模型的存储和计算开销的一种常用技术。为了满足不同场景下的高效性和性能要求，对量化大语言模型进行全面评估对于指导量化方法的选择至关重要。这项工作评估了量化对11个模型族（包括OPT、LLaMA2、Falcon、Bloomz、Mistral、ChatGLM、Vicuna、LongChat、StableLM、Gemma和Mamba，参数范围从125M到180B）的Weight、Activation和KV Cache的影响。评估涵盖了五种类型的任务：基本自然语言处理、涌现能力、可信度、对话任务以及长文本任务。此外，本工作还评估了最新的量化方法以展示其适用范围。本工作系统性地总结了量化带来的影响，提出了量化技术的使用建议，并指出了未来的研究方向。

李好洋，中国人民大学博士三年级学生，导师为李翠平教授与张静教授。
报告题目：CodeS: Towards Building Open-source Language Models for Text-to-SQL
报告简介：近年来，语言模型（Language Model）在text-to-SQL任务上展现出了令人印象深刻的性能。然而，该领域大多数SOTA方法依赖于强大但闭源的大型语言模型，如GPT-3.5和GPT-4，这可能带来模型架构不清晰、数据隐私风险和昂贵的推理开销等限制。为了解决这些限制，我们提出了CodeS，一系列专为text-to-SQL任务预训练的、参数量从1B到15B不等的语言模型。CodeS是一个完全开源的语言模型，它以更小的参数规模实现了更高的准确率。此外，我们提出了一种新的prompt构造策略以实现更精准的模式链接，并提出了一种新型的双向数据增强技术，以便快速适应不同领域。我们在多个数据集上进行了全面评估，包括但不限于广泛使用的Spider基准，新发布的BIRD基准等。实验结果显示，我们的CodeS在几乎所有具有挑战性的text-to-SQL基准测试上都达到了新的SOTA准确率和鲁棒性。

主持人：姚云志，浙江大学博士三年级学生，导师为陈华钧和张宁豫教授。研究兴趣为语言模型知识增强研究兴趣为语言模型知识增强与知识编辑。

panel;智能体视角下的语言模型：泛化与幻觉的辨析，知识表达与应用的探讨

● 模型是如何表达知识的？在多模态的场景下这些知识是如何相互影响相互作用的？

● 语言模型中泛化性（Generalizability）和幻觉性（Hallucination）是同源的吗？语言模型是否可以完全丢掉幻觉性，只保留泛化性？

● 语言模型在未来机器人中的应用形态是怎么样的？

● 智能体是大模型与现实交互的载体吗？

打开封面下载高清视频观看高清视频视频下载器