使用 AI 越狱 AI 模型:新方法可系统地探测 GPT-4 等大型语言模型的弱点,从而使其行为异常

上个月,OpenAI 董事会突然解雇了该公司的首席执行官,这引发了人们的猜测:董事会成员对人工智能突飞猛进的发展速度以及过快寻求技术商业化可能带来的风险感到震惊。

使用 AI 越狱 AI 模型:新方法可系统地探测 GPT-4 等大型语言模型的弱点,从而使其行为异常

Robust Intelligence 是一家成立于 2020 年的初创公司,与耶鲁大学的研究者合作,开发了一种探测大型语言模型(LLMs)的系统性方法,包括 OpenAI 的 GPT-4。这种方法使用「对抗性」AI 模型发现能使语言模型行为异常的「越狱」提示。

在 OpenAI 董事会突然解雇公司首席执行官的背景下,Robust Intelligence 的研究工作引发了人们对 AI 技术进展速度及其商业化风险的关注。该公司警告称,一些现有的风险需要更多的关注。

尽管研究人员已向 OpenAI 发出了漏洞警告,但他们表示尚未收到回应。

哈佛大学计算机科学教授兼 Robust Intelligence 首席执行官 Yaron Singer 表示:「我们的发现表明,存在一种系统性的安全问题,目前这些问题尚未得到解决和关注。」

OpenAI 的发言人 Niko Felix 表示,公司对研究者分享他们的发现表示「感激」。Felix 说:「我们一直在努力使我们的模型在抵御对抗性攻击的同时保持其实用性和性能,使其更加安全和强大。」

新的越狱方法涉及使用额外的人工智能系统来生成和评估提示,系统试图通过向 API 发送请求来实现越狱。这只是一系列攻击中的最新一招,这些攻击似乎凸显了大型语言模型的根本弱点,并表明现有的保护这些模型的方法远远不够。

卡内基梅隆大学(Carnegie Mellon University)教授 Zico Kolter 说:「我非常担心,我们似乎很容易就能攻破这类模型,」他的研究小组在今年 8 月展示了大型语言模型中的漏洞。

Kolter 说,现在有些模型已经有了可以阻止某些攻击的防护措施,但他补充说,这些漏洞是这些模型工作方式的固有缺陷,因此很难防御。 Kolter说:「我认为,我们需要明白,这些漏洞是许多 LLM 固有的,」他说:「我们没有明确而行之有效的方法来防止它们。」

大型语言模型是最近出现的一种强大的、变革性的新型技术。一年前,OpenAI 的 ChatGPT 发布,其功能令普通人眼花缭乱,大型语言模型的潜力成为头条新闻。

在 ChatGPT 发布后的几个月里,发现新的越狱方法成了调皮用户以及对人工智能系统的安全性和可靠性感兴趣的人的热门消遣。但是,现在有几十家初创公司正在大型语言模型 API 的基础上构建原型和成熟的产品。OpenAI 在 11 月举行的首次开发者大会上表示,目前已有 200 多万开发者在使用其 API。

这些模型只是预测给定输入后应该出现的文本,但它们是在大量文本的基础上训练出来的,这些文本来自网络和其他数字资源,使用大量计算机芯片驱动,历时数周甚至数月。只要有足够的数据和训练,语言模型就能表现出超凡的预测能力,对各种输入做出反应,并提供连贯、贴切的信息。

这些模型也会表现出从训练数据中学到的偏差,当提示的答案不太直接时,它们往往会编造信息。如果没有保障措施,它们就会向人们提供如何获取毒品或制造炸弹等建议。为了对模型进行控制,这些模型背后的公司采用了同样的方法,使它们的回答看起来更连贯、更准确。这包括让人类对模型的回答进行评分,并利用反馈意见对模型进行微调,使其不易发生错误行为。

Robust Intelligence 提供了几个越狱示例,展示了如何绕过现有的安全措施。这些越狱不一定都能在 GPT-4 上运行的 ChatGPT 聊天机器人上工作,但其中一些,如生成网络钓鱼信息和为恶意行为者提供在政府计算机网络上隐藏的方法,是有效的。

纽约大学计算机安全和机器学习研究的副教授 Brendan Dolan-Gavitt 表示,Robust Intelligence 揭示的新技术表明,通过人类微调来确保模型安全并非万无一失。

Dolan-Gavitt 说,正在基于 GPT-4 等大型语言模型构建系统的公司应该采取额外的安全措施。他说:「我们需要确保设计使用 LLMs 的系统时,越狱不能让恶意用户访问他们不应该访问的内容。」

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

投稿号的头像投稿号注册会员
上一篇 2023年12月6日
下一篇 2023年12月6日

热点推荐

  • 人才测评软件(人才测评)

    今天,我想和大家分享一些关于人才测评以及人才测评软件的问题。以下是小编对这个问题的总结。让我们看一看。 什么是人才测评 没有无用的人,只有放错位置的人。只有了解企业员工能够做什么,以及倾向于做什么,明确某个职位需要哪些技能基础,才…

    2023年4月19日
    590
  • 济南疫情防控情况,今天最新通报

    今天下午,济南市召开新冠肺炎疫情防控新闻发布会,介绍我市疫情防控工作的最新情况。 情况通报 2022年11月24日12时至25日12时,全市报告新增本土确诊病例38例、无症状感染者193例。其中—— 11月24日12时至24时,报…

    2022年12月3日 热点
    730
  • 又是一年春草绿,又是一年清明时

    (来源:苏州工业园区唯亭发布) 又是一年春草绿 又是一年清明时 明天(4月5日)是 清明节 放假1天,没有调休 “燕子来时新社,梨花落后清明。”清明节,又称踏青节、行清节、三月节、祭祖节等,是中国四大传统节日之一。万物“吐故纳新”…

    2023年4月4日 热点
    550
  • 夏威夷大火约1300人失踪 目前搜救工作仍在进行

    据美媒报道,夏威夷州毛伊岛大火的死亡人数已经上升至99人。夏威夷州长格林预计在未来几天内死亡人数还将大幅增加。这场火灾被认为是美国一个多世纪以来最为致命的火灾之一。 格林表示,这次火灾是夏威夷历史上最严重的自然灾害,恢复工作将需要…

    2023年8月15日
    370
  • 推荐品牌推广的3大策略(品牌推广的策略有哪些)

    品牌的价值是什么?为何要进行品牌推广?品牌推广有什么步骤?这是许多企业都想了解的事情。 通常来说,品牌是消费者对企业的一种印象的承载体,毕竟人们更多的关注是一个品牌而不是一个企业。品牌虽然是一个虚拟的资产,但是也有其价值,而品牌的…

    2022年10月6日
    800
  • 双十一第二波预售有满减吗(双十一第二波预售免定金)

    随着双十一大促第一波优惠促销结束后,网上也有越来越多的人开始关注今年双十一第二波活动优惠。双十一第二波预售有满减吗?跨店满减优惠也是双十一期间最受大家关注的,而双十一第二波满减优惠力度怎么样呢?赶紧跟小编一起来了解下吧。 双十一第…

    2023年11月4日
    310
  • 董宇辉停播?东方甄选CEO为直播摔手机致歉,俞敏洪:小孙做事不够圆润

    近日,东方甄选小作文事件不断发酵。12月14日,东方甄选发布甄选品牌日15日至17日全天直播宣传海报,董宇辉未在其中。#董宇辉 停播#话题登上热搜第一。 此外,12月14日晚间,东方甄选CEO孙东旭通过微博发布视频道歉。 截至发稿…

    2023年12月16日
    270
  • 美国沙特都担忧巴以冲突扩大为地区战争 沙特国防大臣将访美

    美国沙特都担忧巴以冲突扩大为地区战争 沙特国防大臣将访美 【美国沙特都担忧巴以冲突扩大为地区战争 沙特国防大臣将访美】财联社10月29日电,据美国Axios新闻网当地时间28日报道,3名知情人士告诉该媒体,预计沙特国防大臣哈立德·…

    2024年1月24日
    220
  • 福建省消委会提醒:59款咖啡检出致癌物!涉及“瑞幸”“星巴克”……

    (来源:河北省消协) 爱喝咖啡的请注意! 福建省消委会 对福州市20家咖啡销售单位的 59款现制现售咖啡 开展比较试验 均检测出低含量的 2A类致癌物 样品涉“瑞幸”“星巴克” 为了贯彻中消协“提振消费信心”消费维权年主题,让消费…

    2023年12月13日
    300
  • 和平精英灵敏度怎么调最稳(《和平精英》灵敏度怎么调最稳)

    和平精英灵敏度怎么调最稳?不少大神玩家会公布自己的和平精英灵敏度调整详细情况,但并不是每个大神灵敏度设置都适合自己,那么怎么调灵敏度才会最适合自己呢? 和平精英灵敏度怎么调最稳 1、镜头灵敏度影响跟枪和第一枪的射击效果 有些人喜欢…

    2023年10月12日
    370