语言模型如何确保无害性？通过推理过程中的隐状态解析越狱和安全对齐

发布人

标题
语言模型如何确保无害性？通过推理过程中的隐状态解析越狱和安全对齐
论文：How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States
链接：https://arxiv.org/abs/2406.05644

内容大纲
一. 大模型的安全问题
1. 语言模型的发展脉络：参数和数据的scaling law赋予了语言模型更强大的能力
2. 语言模型安全问题的根源：模型对于数据的渴求带来了安全问题
3. 常用的安全措施：安全对齐简介
4. 简单总结：引入可解释性才可能从根本上保证语言模型的可控性
二. 大模型的安全与可解释性
1. 工业界最新的研究进展：OpenAI以及Anthropic的最新可解释性研究如何助力大模型安全
2. 学术界最新的研究进展：
  a. 参数分析：确定安全相关的参数
  b. 输出分析：基于输出分析模型安全的性质
三. 从隐状态解析语言模型的安全机制
1. 安全机制回顾
  a. 正常查询与恶意查询
  b. 恶意回复的特征
2. 假设：出于安全考虑的拒绝生成近似于分类任务
3. 安全分类是如何完成的？
  a. 语言模型是如何推理的
  b. 语言模型如何逐层完成拒绝分类
4. 对齐和越狱是如何作用于语言模型的
  a. 使用弱分类器捕捉隐藏状态的特征
  b. 语言模型是如何习得道德概念
  c. 对齐通关联道德概念与情感分类任务，保证语言模型保证安全
  d. 越狱如何导致语言模型的对齐失效
  e. 语言模型完整的拒绝流程

引言
近年来，大型语言模型（LLMs）在生成高质量文本方面展现了巨大的潜力。然而，这些模型在面对恶意用户输入时，需要依赖安全对齐机制以避免生成有害内容。不幸的是，“越狱”（jailbreak）技术能够绕过这些安全防护措施，使语言模型生成危险内容，导致人们对于语言模型的不信任。因此，了解语言模型如何工作进而确保其安全性十分必要。
由于大型语言模型通常具有庞大的参数规模，常被视为“黑箱”，这使得对齐和越狱的机制难以解释，导致LLMs的安全性缺乏透明度和可解释性。在我们的研究中，我们使用弱分类器来解释LLMs如何迭代优化中间隐藏状态。我们对比了base model和aligned model的结果，发现LLMs在预训练期间已经学习到伦理和安全概念。而这个概念之前普遍被认为是在对齐过程中才学习到的，并且我们发现LLMs在早期层即可区分恶意输入和正常输入。我们进一步分析了对齐的作用，发现对齐实际上是在早期层结果的特征与中间层的粗粒度情感进行关联，然后进一步优化到生成特定的拒绝标记。而越狱作用的原理则是干扰了对齐赋予的关联能力。我们的研究表明，模型的安全漏洞与其关联能力呈负相关。我们的研究揭示了LLMs安全性的内在机制以及越狱如何绕过安全防护，提供了一个新的视角来理解LLMs的安全性。

嘉宾
周振宏，北京邮电大学计算机学院二年级硕士。研究方向为自然语言处理和可信人工智能，最近的主要关注点包括大模型的安全，大模型的越狱和防御，以及大模型的可解释性。以第一作者身份在AAAI上发表过论文，并维护了目前Github上最受欢迎的大模型安全论文仓库awesome-llm-safety(https://github.com/ydyjya/Awesome-LLM-Safety)。个人主页见 https://ydyjya.github.io

主持人
华文越 罗格斯大学在读PhD

打开封面下载高清视频观看高清视频视频下载器

语言模型如何确保无害性？通过推理过程中的隐状态解析越狱和安全对齐

情绪，不是被管住的，而是被消灭的

【一起开发】大语言模型零基础至项目实战

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

如何加速大语言模型推理？万字长文综述大语言模型高效推理技术

中国大语言模型登顶全球第一，你最常用哪个？ChatGPT4

大语言模型多选题评估的偏见与鲁棒性

【中文字幕】吴恩达大语言模型微调教程，让你的LLM服服帖帖

OpenRLHF：大规模分布式RLHF训练系统介绍

30分钟吃透Transformer架构！pytorch从0实现！ | 代码逐行讲解 | 源码开放 | 高效入门

【全300集】清华大学2024版Transformer教程！入门到进阶，全程干货讲解！拿走不谢！（神经网络/NLP/深度学习/BERT/大模型/GPT/RNN）

大语言模型安全

无矩阵乘法LLM - 一个来自线性Transformer的视角

知识斗地主：解析RAG大模型中复杂的知识冲突

大模型LLM-RAG知识库问答实战项目前后端实战课 - Milvus/QWen/ChatGPT/Flask/Tailwindcss

fomepay跑路？我的100刀怎么办？！最新解决方案！一分钟搞定ChatGPT升级问题！

【全648集】清华大佬终于把AI大模型课整理出来了，通俗易懂，2024最新版，学完即就业！拿走不谢，学不会我退出IT圈！

B站史上最全的【NLP自然语言处理】保姆级入门教程，整整300集从零基础到项目实战，草履虫都能听懂学完即可就业！

【李宏毅】2024秋《生成式人工智能导论》教程！LLM大模型入门到进阶，一套全解决！2024生成式人工智慧-附带课件代码

从零开始训练大模型

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

【2024最新完整版】不愧是李宏毅教授！一口气学完机器学习、深度学习、强化学习、NLP、生成式AI等课程！一套全解决！

【全187集】字节跳动大佬终于把AI大模型（LLM）讲清楚了！通俗易懂，2024最新内部版！拿走不谢，学不会我退出IT圈！

沉浸式大模型面试，你能扛到第几枪？

【中英字幕】Nvidia黄仁勋与Ilya Sutskever的谈话

RNN卷土重来：基于门控记忆槽的线性注意力机制

FacTool: 生成人工智能中的事实检测 - 用于多任务和多领域场景的工具增强框架

2024大模型RAG企业项目实战：从零开始搭建一套完整的RAG系统，理论+原理+代码深入解析，小白都能学会的实战教程！【LLM大模型+RAG】

大语言模型的时间魔法：从共时推理到框架优化

【2024最新】清华大佬一小时带你入门提示词工程（Prompt Engineering），全网最通俗易懂教程，全程干货无废话！大模型|LLM|多模态|人工智能）

脆弱的不确定性：大模型的可信度如何被操控

2024最新开源大语言模型GLM-4详细教程—环境配置+模型微调+模型部署+效果展示，手把手教学！

用ChatGPT搞钱？到底是赚钱术还是骗术？看完这个视频不当烂韭菜

【NICE一期】吴胜琼：NExT-GPT：全能多模态大语言模型

2024最新最全最详细的AI大模型入门教程，800分钟技术精讲！包含学习路线及配套视频资料，带你轻松搞定AI大模型！

90分钟串讲Attention-Transformer-BERT-GPT

破案了，ChatGPT是预制菜

【NICE一期】聂耳聪：通过概率校准提升多语言编码模型零样本学习的表现

符号化规则强化CoT，大幅提高推理性能 - ACL2024

大模型事实性综述

LLM大模型必学RAG企业落地项目实战：手把手带你学习完整的RAG知识库，原理微调讲解+代码解析，毛毛虫都能学清楚！丨LLM，大模型，RAG，embedding