来自东南亚的邪术：一种攻击大模型的方法

发布人

最近，南洋理工发明了一种新型的攻击方式，能够诱导大模型输出非法内容，主流大模型无一幸免，全部中招，这种也叫大模型越狱。这个方法叫master key，是南洋理工大学等四所高校提出的一种大模型“越狱”新方法，用上它，大模型“越狱”成功率从平均7.3%直接暴涨至21.5%。他这个研究的基本思路就是用魔法打败魔法，用大模型攻击大模型。
它的攻击策略主要分三步：第一步，收集市面上大模型已有的成功“越狱”案例，像著名的奶奶漏洞，攻击者扮成奶奶打感情牌，让大模型提供违法操作思路，做成“越狱”数据集；第二步，基于这个数据集微调一个“诈骗”大模型，让它自动生成诱导提示词；第三步，进一步优化模型，使其能灵活生成各种提示词，绕过不同主流模型的防御机制。
事实证明，MasterKey 效果相当不错，平均“诈骗”成功率达 21.58%，也就是说输入 100 次提示词，平均 21 次能让其他大模型成功“越狱”。而且相比其他让 AI 随机生成提示词的研究，MasterKey 能快速学会最新的越狱套路，还能举一反三用在提示词里。
当前，大模型的攻击手段主要有两种，白盒的攻击和黑盒攻击。白盒攻击需要掌握模型结构和数据，通常只有开源大模型能做到，攻击条件高，过程复杂。黑盒攻击则简单直接，通过输入输出试探大模型，一个 API 就能搞定，其中又包括提示词攻击和 tokens 攻击。tokens 攻击是输入乱码或大量对话“攻陷”大模型，探讨其自身和结构的脆弱性。提示词攻击更常见，基于不同提示词让大模型输出有害内容，探讨其逻辑问题。
总之，像 MasterKey 这种提示词攻击，是最常见的商用大模型攻击手段，也是最容易触发大模型逻辑 bug 的方式！

打开封面下载高清视频观看高清视频视频下载器

来自东南亚的邪术：一种攻击大模型的方法

国内大模型基本就是靠两个洋雷锋

【卢菁老师说】Agent就是一场彻头彻尾的AI泡沫

为什么大模型越微调越差？

从萝卜快跑看AI的本质

RAG的死穴在哪？

LLama3.1的92页技术报告讲解 全球最大开源大模型 405B 详细解读 全面梳理 LLM 相关技术栈 卢菁博士授课【北京大学博士后人工智能专家】

多模态大模型的幻觉类型和产生原因

人工智能新突破！登上Nature神坛！首次被证明具有系统泛化能力，能像人类一样举一反三！

ChatGPT奶奶漏洞爆火！人类到底有多狡猾？

天才乔布斯，一语道破计算机的本质

智能体是智商税吗？

大模型的困境：两年热度未催生爆款应用

很多硕博学生不懂得忠诚概念

现在是否是大语言模型的垃圾时间？

大模型其实没有逻辑能力

大模型其实没有真正意义上的开源

憨憨学妹没读国赛规则调一早上车以为自己完赛了

【每日科学新发现】细菌征服了微波炉，高耐极端环境细菌距离你更近

特斯拉被严重低估顶级配置——生化防御模式 一条视频了解生化模式的工作原理和使用场景#特斯拉 #特斯拉modely

机器狗遇到并嘲笑一只真正的狗

让AI玩贪吃蛇，活生生训练出一个科学怂蛋

汝之蜜糖，彼之砒霜 | 用AI合成数据训练自己可行吗？

金毛大战机器狗

小小越南摇，一遍拿下

核心创始人离职+大模型被污染，开创时代OpenAI可能要分崩离析？

学弟的学弟昨晚受群里大佬刺激太大，猛调了一天速度，从3m拉到3.4m/s，希望省赛不会被卷死吧

AI界的“狼来了”？“OpenAI的‘草莓’骗局？画饼大师还是AI先驱?

被朋友说像会玩希尔薇的

是进步还是倒退？第四代住宅真的那么好吗？它的主旨是利好客户，还是刺激需求！！

复旦揭开大模型新秘密：仅改130亿大语言模型1个权重，语言能力全丧失！

AI大模型这么火爆！为什么业界科研大佬都跳车回学界？医学大模型能起飞么？

五子棋事实证明，只要我速度很快，人工智能就跟不上我。

潜在空间可视化：PCA、t-SNE、UMAP

这就是高维生物的真相吗

《大学生约炮行为研究》cssci 北大核心论文

过于科幻，一公司卖夜间阳光，我预订了深圳的夜间阳光！

研究团队疯狂打脸的Nature神作：神经网络和人一样有空间意识？ 首次学会在Minecraft创建地图

一本真正用“通用语”写的书，这下所有人都能看懂了吧

当你手里拿了张纸，AI觉得你是空气的时候有多危险？

华南冠军的恐怖实力

LLama3.1的92页技术报告讲解全球最大开源大模型 405B 详细解读全面梳理 LLM 相关技术栈卢菁博士授课【北京大学博士后人工智能专家】

特斯拉被严重低估顶级配置——生化防御模式一条视频了解生化模式的工作原理和使用场景#特斯拉 #特斯拉modely

研究团队疯狂打脸的Nature神作：神经网络和人一样有空间意识？首次学会在Minecraft创建地图