V
主页
京东 11.11 红包
来自东南亚的邪术:一种攻击大模型的方法
发布人
最近,南洋理工发明了一种新型的攻击方式,能够诱导大模型输出非法内容,主流大模型无一幸免,全部中招,这种也叫大模型越狱。这个方法叫master key,是南洋理工大学等四所高校提出的一种大模型“越狱”新方法,用上它,大模型“越狱”成功率从平均7.3%直接暴涨至21.5%。他这个研究的基本思路就是用魔法打败魔法,用大模型攻击大模型。 它的攻击策略主要分三步:第一步,收集市面上大模型已有的成功“越狱”案例,像著名的奶奶漏洞,攻击者扮成奶奶打感情牌,让大模型提供违法操作思路,做成“越狱”数据集;第二步,基于这个数据集微调一个“诈骗”大模型,让它自动生成诱导提示词;第三步,进一步优化模型,使其能灵活生成各种提示词,绕过不同主流模型的防御机制。 事实证明,MasterKey 效果相当不错,平均“诈骗”成功率达 21.58%,也就是说输入 100 次提示词,平均 21 次能让其他大模型成功“越狱”。而且相比其他让 AI 随机生成提示词的研究,MasterKey 能快速学会最新的越狱套路,还能举一反三用在提示词里。 当前,大模型的攻击手段主要有两种,白盒的攻击和黑盒攻击。白盒攻击需要掌握模型结构和数据,通常只有开源大模型能做到,攻击条件高,过程复杂。黑盒攻击则简单直接,通过输入输出试探大模型,一个 API 就能搞定,其中又包括提示词攻击和 tokens 攻击。tokens 攻击是输入乱码或大量对话“攻陷”大模型,探讨其自身和结构的脆弱性。提示词攻击更常见,基于不同提示词让大模型输出有害内容,探讨其逻辑问题。 总之,像 MasterKey 这种提示词攻击,是最常见的商用大模型攻击手段,也是最容易触发大模型逻辑 bug 的方式!
打开封面
下载高清视频
观看高清视频
视频下载器
国内大模型基本就是靠两个洋雷锋
【卢菁老师说】Agent就是一场彻头彻尾的AI泡沫
为什么大模型越微调越差?
从萝卜快跑看AI的本质
RAG的死穴在哪?
LLama3.1的92页技术报告讲解 全球最大开源大模型 405B 详细解读 全面梳理 LLM 相关技术栈 卢菁博士授课【北京大学博士后人工智能专家】
多模态大模型的幻觉类型和产生原因
人工智能新突破!登上Nature神坛!首次被证明具有系统泛化能力,能像人类一样举一反三!
ChatGPT奶奶漏洞爆火!人类到底有多狡猾?
天才乔布斯,一语道破计算机的本质
智能体是智商税吗?
大模型的困境:两年热度未催生爆款应用
很多硕博学生不懂得忠诚概念
现在是否是大语言模型的垃圾时间?
大模型其实没有逻辑能力
大模型其实没有真正意义上的开源
憨憨学妹没读国赛规则调一早上车以为自己完赛了
【每日科学新发现】细菌征服了微波炉,高耐极端环境细菌距离你更近
特斯拉被严重低估顶级配置——生化防御模式 一条视频了解生化模式的工作原理和使用场景#特斯拉 #特斯拉modely
机器狗遇到并嘲笑一只真正的狗
让AI玩贪吃蛇,活生生训练出一个科学怂蛋
汝之蜜糖,彼之砒霜 | 用AI合成数据训练自己可行吗?
金毛大战机器狗
小小越南摇,一遍拿下
核心创始人离职+大模型被污染,开创时代OpenAI可能要分崩离析?
学弟的学弟昨晚受群里大佬刺激太大,猛调了一天速度,从3m拉到3.4m/s,希望省赛不会被卷死吧
AI界的“狼来了”?“OpenAI的‘草莓’骗局?画饼大师还是AI先驱?
被朋友说像会玩希尔薇的
是进步还是倒退?第四代住宅真的那么好吗?它的主旨是利好客户,还是刺激需求!!
复旦揭开大模型新秘密:仅改130亿大语言模型1个权重,语言能力全丧失!
AI大模型这么火爆!为什么业界科研大佬都跳车回学界?医学大模型能起飞么?
五子棋事实证明,只要我速度很快,人工智能就跟不上我。
潜在空间可视化:PCA、t-SNE、UMAP
这就是高维生物的真相吗
《大学生约炮行为研究》cssci 北大核心论文
过于科幻,一公司卖夜间阳光,我预订了深圳的夜间阳光!
研究团队疯狂打脸的Nature神作:神经网络和人一样有空间意识? 首次学会在Minecraft创建地图
一本真正用“通用语”写的书,这下所有人都能看懂了吧
当你手里拿了张纸,AI觉得你是空气的时候有多危险?
华南冠军的恐怖实力