使用 AI 越狱 AI 模型：新方法可系统地探测 GPT-4 等大型语言模型的弱点，从而使其行为异常

投稿号 • 2023年12月6日 15:09 • 热点 • 阅读 95

上个月，OpenAI 董事会突然解雇了该公司的首席执行官，这引发了人们的猜测：董事会成员对人工智能突飞猛进的发展速度以及过快寻求技术商业化可能带来的风险感到震惊。

Robust Intelligence 是一家成立于 2020 年的初创公司，与耶鲁大学的研究者合作，开发了一种探测大型语言模型（LLMs）的系统性方法，包括 OpenAI 的 GPT-4。这种方法使用「对抗性」AI 模型发现能使语言模型行为异常的「越狱」提示。

在 OpenAI 董事会突然解雇公司首席执行官的背景下，Robust Intelligence 的研究工作引发了人们对 AI 技术进展速度及其商业化风险的关注。该公司警告称，一些现有的风险需要更多的关注。

尽管研究人员已向 OpenAI 发出了漏洞警告，但他们表示尚未收到回应。

哈佛大学计算机科学教授兼 Robust Intelligence 首席执行官 Yaron Singer 表示：「我们的发现表明，存在一种系统性的安全问题，目前这些问题尚未得到解决和关注。」

OpenAI 的发言人 Niko Felix 表示，公司对研究者分享他们的发现表示「感激」。Felix 说：「我们一直在努力使我们的模型在抵御对抗性攻击的同时保持其实用性和性能，使其更加安全和强大。」

新的越狱方法涉及使用额外的人工智能系统来生成和评估提示，系统试图通过向 API 发送请求来实现越狱。这只是一系列攻击中的最新一招，这些攻击似乎凸显了大型语言模型的根本弱点，并表明现有的保护这些模型的方法远远不够。

卡内基梅隆大学（Carnegie Mellon University）教授 Zico Kolter 说：「我非常担心，我们似乎很容易就能攻破这类模型，」他的研究小组在今年 8 月展示了大型语言模型中的漏洞。

Kolter 说，现在有些模型已经有了可以阻止某些攻击的防护措施，但他补充说，这些漏洞是这些模型工作方式的固有缺陷，因此很难防御。 Kolter说：「我认为，我们需要明白，这些漏洞是许多 LLM 固有的，」他说：「我们没有明确而行之有效的方法来防止它们。」

大型语言模型是最近出现的一种强大的、变革性的新型技术。一年前，OpenAI 的 ChatGPT 发布，其功能令普通人眼花缭乱，大型语言模型的潜力成为头条新闻。

在 ChatGPT 发布后的几个月里，发现新的越狱方法成了调皮用户以及对人工智能系统的安全性和可靠性感兴趣的人的热门消遣。但是，现在有几十家初创公司正在大型语言模型 API 的基础上构建原型和成熟的产品。OpenAI 在 11 月举行的首次开发者大会上表示，目前已有 200 多万开发者在使用其 API。

这些模型只是预测给定输入后应该出现的文本，但它们是在大量文本的基础上训练出来的，这些文本来自网络和其他数字资源，使用大量计算机芯片驱动，历时数周甚至数月。只要有足够的数据和训练，语言模型就能表现出超凡的预测能力，对各种输入做出反应，并提供连贯、贴切的信息。

这些模型也会表现出从训练数据中学到的偏差，当提示的答案不太直接时，它们往往会编造信息。如果没有保障措施，它们就会向人们提供如何获取毒品或制造炸弹等建议。为了对模型进行控制，这些模型背后的公司采用了同样的方法，使它们的回答看起来更连贯、更准确。这包括让人类对模型的回答进行评分，并利用反馈意见对模型进行微调，使其不易发生错误行为。

Robust Intelligence 提供了几个越狱示例，展示了如何绕过现有的安全措施。这些越狱不一定都能在 GPT-4 上运行的 ChatGPT 聊天机器人上工作，但其中一些，如生成网络钓鱼信息和为恶意行为者提供在政府计算机网络上隐藏的方法，是有效的。

纽约大学计算机安全和机器学习研究的副教授 Brendan Dolan-Gavitt 表示，Robust Intelligence 揭示的新技术表明，通过人类微调来确保模型安全并非万无一失。

Dolan-Gavitt 说，正在基于 GPT-4 等大型语言模型构建系统的公司应该采取额外的安全措施。他说：「我们需要确保设计使用 LLMs 的系统时，越狱不能让恶意用户访问他们不应该访问的内容。」

声明：本文内容整理自网络，观点仅代表原作者本人，投稿号仅提供信息发布服务。如有侵权，请联系管理员。

0 0

关于作者

投稿号

36.9K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

记者挑衅滕哈格：希望曼联遭遇危机

上一篇 2023年12月6日 15:02

男子怒砸私家车被拖行数百米，警方已介入，目击者：有感情纠纷，车内坐着他老婆

下一篇 2023年12月6日 16:13

热点
美国最好的乐队(美国乐队排行榜)
世界十大乐队 1、酷玩乐队酷玩乐队（Coldplay），英国摇滚乐队，由主唱克里斯·马汀、贝斯手盖·鲁伯特·贝瑞曼、吉他手强尼·巴克蓝和鼓手威尔·查平四位成员组成。 2、滚石乐队的前身为“Little Boy Blue andt…
投稿号
热点 2023年12月15日
3820
热点
小小的花园里挖呀挖呀是什么歌(小小的花园里挖呀挖呀听妈妈的话)
最近一段时间抖音等平台上经常可以涮到小小的花园里挖呀挖呀，听起来非常治愈，不少小伙伴都想知道歌名，那么小小的花园里挖呀挖呀是什么歌？下面小编为大家带来小小的花园里挖呀挖呀梗的含义及歌词完整版分享，感兴趣的小伙伴一起来看一下吧。小…
投稿号
热点 2023年5月6日
1710
热点
“鼠头鸭脖”高校食堂又吃出大青虫，官方回应
近日，江西工业职业技术学院食堂疑似吃出老鼠头，尽管学校及相关部门也在第一时间发布相关通报对此事进行澄清，但依旧有不少网友对此表示质疑。然而，“鼠头鸭脖”舆论风波未平，又有学生反映在同一食堂吃出了绿色大青虫。据都市时报援引巨浪视…
投稿号
热点 2023年6月10日
1450
热点
山东这2市明确：过年期间可燃放烟花爆竹
年关将近，过年期间能否燃放烟花爆竹？成为很多山东老师儿们关注的问题！ 10月20日，山东商报·速豹新闻网从东营、滨州两市的政府网站了解到目前两地已明确春节期间可以有限制的燃放烟花爆竹！东营小编在东营市人民政府官网-网上…
投稿号
热点 2022年12月21日
1470
热点
锁爱三生追剧日历表
《锁爱三生》原著小说叫《少帅,你老婆又双叒叕被人撩了》，作者是番茄小说签约作者尚梓垚。该剧讲述了冷酷军阀萧鸿烨和落魄千金顾梦相爱相杀的故事，两人展开了一段爱恨情仇。主演是李九霖和关畅，两人之间夹杂着血海深仇，与此同时，还产生了…
投稿号
热点 2023年5月28日
1400
KingDraw实用技巧丨如何将结构式复制到Word、PowerPoint等文件中

KingDraw PC端、移动端（iOS客户端）均支持将结构式直接复制到Microsoft Office、WPS Office相关产品中，如Word、Excel、PowerPoint、WPS文档等，并且支持从Microsoft O…
投稿号
2023年5月3日 • 热点
2140
热点
文在寅离任讲话：终于卸下重担
“终于卸下总统的重担，重返平凡公民的生活，祝愿每一位国民生活幸福。” 5月9日，韩国总统文在寅迎来任期最后一天。当天上午，他在青瓦台发表离任讲话，回顾执政5年取得的成果，并呼吁新政府续写韩国成功的历史。文在寅发表离任讲话，首尔市…
投稿号
热点 2022年10月13日
1460
热点
女生称30岁相亲被介绍待离婚男士因病弃妻亲戚却说很靠谱
据白鹿视频最新报道，近日，浙江杭州。女子发文称自己被亲戚介绍相亲，结果相亲对象还没离婚。当事人王女士称，亲戚说相亲对象挺优秀的，但现在还没离婚，六月份离婚。离婚原因是他的老婆有骨髓炎不能生育。自己听到这个消息当时就很生气，觉得这个…
投稿号
热点 2023年5月11日
1380
热点
终于庐山真面目“鼠头鸭脖”事件：认定饭菜中异物是鼠头！
近期，鼠头鸭脖事件事件引起了轩然大波。经过多个省级部门的联合调查，终于确认了老鼠脑袋的真相。在这一事件中仍存在一些疑点，引发了对真相的追求。本文将对这些问题进行探讨，呼吁相关部门严肃处理！经过联合调查组勘察现场并调取监控视频，对…
投稿号
热点 2023年6月29日
1280
热点
香港迪士尼面积(香港迪士尼乐园项目介绍)
香港迪士尼面积为126公顷。香港迪士尼乐园位于中国香港特别行政区新界大屿山，占地126公顷，在2005年9月12日正式开幕。由香港特别行政区政府，以及华特迪士尼公司联合经营的香港国际主题乐园有限公司建设及营运，是全球第五座、亚洲第…
投稿号
热点 2022年10月6日
1720

发表回复

登录后才能评论

使用 AI 越狱 AI 模型：新方法可系统地探测 GPT-4 等大型语言模型的弱点，从而使其行为异常

关于作者

热点推荐

发表回复