中国科学院院士何积丰：应对大模型的安全问题，需设好“紧箍咒”

投稿号 • 2023年9月7日 15:11 • 热点 • 阅读 107

极客号(Xqh8.com) 9月7日消息:模型的通用能力让其能够应用到人类生产生活的各个场景中，可谓“无孔不入”。AI的发展因此带来了新的安全隐私问题，如何解决这一隐患，9月7日开幕的2023INCLUSION·外滩大会上，中国科学院院士何积丰开出了他的“药方”:利用对齐技术为大模型戴上紧箍咒。

何积丰院士认为，大模型的安全问题主要是在未经同意的情况下，收集、使用和泄露个人信息。隐私问题既可能发生在训练过程，也可能发生在使用过程中，而大模型的生成能力则让“隐私泄露”的方式变得多样化，造成隐私保护更加困难。

“为了应对这些问题，我们需要大模型对齐技术。”何积丰说，“对齐（alignment）”是指系统的目标和人类价值观一致，使其符合设计者的利益和预期，不会产生意外的有害后果。“如果把人工智能看作西游记里的孙悟空，‘对齐’就是唐僧的紧箍咒。有了紧箍咒，就可以保证技术不会任意使用能力胡作非为。”

不过，对齐技术同样面临挑战。首先，对齐的基础，人类的价值观是多元且动态变化的，需要保证大模型为人服务、与人为善;其次，大模型的有用性与无害性之间目标也不完全一致。如何对错误进行有效纠正，设好大模型的“紧箍咒”也是挑战。

因此，对齐技术已经成为了一项令人眼花缭乱的跨学科研究，不仅考验技术，也审视文化。

何积丰介绍，反馈强化学习是实现对齐的技术途径，目前有两种方式，一种方式是通过人工反馈给模型不同的奖励信号，引导模型的高质量输出;另一种方式，事先给大模型提供明确的原则，系统自动训练模型对所有生成的输出结果提供初始排序。“这意味着，不仅智能系统需要向人类价值观对齐，人类的训练方法也要向价值观对齐。”何积丰说。

声明：本文内容整理自网络，观点仅代表原作者本人，投稿号仅提供信息发布服务。如有侵权，请联系管理员。

赞 (0)

关于作者

投稿号

36.9K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

中国科学院院士张人禾：科学智能已成人工智能重点发展方向

上一篇 2023年9月7日 15:11

黄金掺铼是怎么回事

下一篇 2023年9月7日 15:11

热点
女童体育课短跑猝死 9分钟后才急救背后的真相让人始料未及
10月25日，辽宁省抚顺市望花区逸夫小学二年级学生朵朵(化名)在体育课50米短跑测试后倒地不起，猝死在校内。事发后，其父亲周先生到学校调取监控发现，朵朵和同学们在跑步前未进行热身活动，体育老师看到朵朵倒地后，过了9分钟才对朵朵进行…
投稿号
热点 2023年11月4日
1090
热点
大加索尔晒与姚明合照(姚明和两位高人合影照片)
2002年斯科拉跟阿根廷拿到世锦赛亚军时，赛会第一中锋是22岁的姚明 2004年，姚明奥运会篮板王，得分第三第四是吉诺比利 2006年加索尔拿下世锦赛冠军和MVP，但得分王是姚明 2008年奥运会得分，前三位加索尔姚明斯科拉欧洲…
投稿号
热点 2022年10月3日
1830
热点
持基市值超亿元“牛散”曝光：有人狂买73只上市基金有人日进万元
图虫创意/供图吴琦/制表翟超/制图证券时报记者吴琦购买基金已经成为全民理财的重要手段，个人投资者在不断加大对公募基金产品的投资。其中，不少牛散大手笔布局，有的买了数十只基金，也有的一出手即买入上亿元基金。场内交易的交易…
投稿号
热点 2022年9月14日
1610
热点
六一仪式感红包怎么发(六一发红包的仪式感)
六一仪式感红包怎么发？下面小编为大家带来六一仪式感红包发送方法分享，感兴趣的小伙伴一起来看一下吧。六一仪式感红包怎么发 1、通用红包610元，儿童节的日期是6月1日，因为发红包的数字使用610还是比较应景的。2、给女友发儿童节红…
投稿号
热点 2023年6月1日
1210
热点
贝利一共结婚过几次？都有谁到面管策非朝决足写序？
球王贝利一共有六个孩子，其中四个是他亲生的。小儿子约舒亚；小女360问答儿塞勒斯特；他妻子与前任丈夫的女儿吉米丽；他前妻的女儿凯莉；大女儿珍妮弗；儿子埃迪尼奥。 1966年，26岁的贝利娶了首任太太，两人生了三个孩子，但后来贝利…
投稿号
热点 2023年3月1日
1620
电影院imax3d和3d的区别，3d电影跟imax一样吗

不管你喜不喜欢，3D电影已经无处不在！它的作用就是把观众拉到电影的场景里。不过，不是什么3D电影都能给你那种置身其中的感觉。就让小编带你了解三维视觉的常识吧！现实生活中我们靠双眼来感觉出三维的立体效果，一般人两眼间的距离是7.5C…
投稿号
2022年10月27日 • 热点
2520
热点
原来茶位费是可以拒绝的最离谱的是服务费按消费的百分比收！
12月9日消息，微博话题“原来茶位费是可以拒绝的”引发热议。据国内多家媒体报道，在餐饮娱乐消费领域，茶位费、餐具费、开瓶费可谓餐饮界的三大“消费刺客”，消费者有权可以拒绝。另外，像“禁止自带酒水”、“包间设置最低消费”、“KT…
投稿号
热点 2023年12月10日
1350
热点
药房加盟费多少(药房加盟排行榜)
加盟大药房哪个品牌好? 这种加盟店有老百姓大药房、百草堂品牌好。老百姓大药房：该品牌是一家实力雄厚的集团，公司总部是在湖南，公司现在已经拥有了二十年的发展历程，还在国内发展了上千家的连锁店。连锁药房哪个好连锁药店十大榜单十大连锁…
投稿号
热点 2023年10月9日
1450
热点
女主播户外涉黄直播当场被抓背后的真相让人始料未及
近日，江西赣州，龙南警方查处一起传播淫秽物品牟利案。警方接到线索，有女子在户外街道进行涉黄直播，民警赶往现场将其带回审讯。女子交代，起初正常直播没人观看，开始转做色情直播，并在粉丝群发涉黄视频，共计非法获利8000余元。目前，廖某…
投稿号
热点 2023年9月7日
1760
广州-龙岩教育对口合作扬帆起航

2月13日，广州—龙岩教育对口合作座谈会暨重点学校结对签约仪式在广州举行。广州市副市长江智涛出席会议并讲话，广东省教育厅二级巡视员朱俊文出席。龙岩市委书记余红胜出席会议并讲话，龙岩市政府市长胡盛主持会议。龙岩市政府副市长修洪，以及…
投稿号
2023年4月5日 • 热点
1160

发表回复

登录后才能评论