谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

【新智元导读】谷歌团队认为,模型泛化能力无处不在,只要摸清条件,模型就不是随机鹦鹉。

在特定情况下,人工智能模型会超越训练数据进行泛化。在人工智能研究中,这种现象被称为「顿悟」,而谷歌现在正在提供对最近发现的深入了解。

在训练过程中,人工智能模型有时似乎会突然「理解」一个问题,尽管它们只是记住了训练数据。在人工智能研究中,这种现象被称为「顿悟」,这是美国作家Robert A. Heinlein创造的一个新词,主要在计算机文化中用来描述一种深刻的理解。

当人工智能模型发生顿悟时,模型会突然从简单地复制训练数据转变为发现可推广的解决方案——因此,你可能会得到一个实际上构建问题模型以进行预测的人工智能系统,而不仅仅是一个随机的模仿者。

谷歌团队:「顿悟」是一种「有条件的现象」

「顿悟」在希望更好地理解神经网络学习方式的人工智能研究人员中引起了很大的兴趣。这是因为「顿悟」表明模型在记忆和泛化时可能具有不同的学习动态,了解这些动态可能为神经网络学习提供重要见解。

尽管最初是在单个任务上训练的小型模型中观察到,但谷歌的最新研究表明,顿悟也可以发生在较大的模型中,并且在某些情况下可以被可靠地预测。然而,在大型模型中检测这种顿悟动态仍然是一个挑战。

在这篇文章中,谷歌研究人员提供了有关这一现象和当前研究的视觉展示。该团队对超过1000个不同训练参数的小型模型进行了算法任务的训练,展示了「有条件的现象——如果模型大小、权重衰减、数据大小和其他超参数不合适,这种现象会消失。」

了解「顿悟」可能会改进大型AI模型

根据该团队的说法,仍然有许多未解之谜,例如哪些模型限制会可靠地引起「顿悟」,为什么模型最初更喜欢记住训练数据,以及研究中用于研究小型模型中这一现象的方法在大型模型中是否适用。

对「顿悟」的理解进步可能会为未来大型AI模型的设计提供信息,使它们能够可靠且快速地超越训练数据。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

在2021年,研究人员在对一系列微型模型进行玩具任务训练时发现:一组模型,在经过更长时间的训练后,突然从仅仅「记住」之前的训练数据,转变为在未见过的输入上表现出正确的泛化能力。

这种现象被称为「顿悟」,并引发了一系列的兴趣和研究。

更复杂的模型是否也会在经过更长时间的训练后突然表现出泛化能力呢?

大型语言模型看起来似乎具有很强的对外部世界的理解能力,但可能模型只是在重复记忆训练过的海量文本数据的片段,而没有真正理解其内容。

到底如何判断它们是在泛化还是在记忆?

在这篇文章中,研究人员将研究一个微型模型的训练动态过程,并对其找到的解决方案进行逆向工程——在此过程中,研究人员将阐述这个令人振奋的新兴机制中那些能被研究人员理解的部分。

虽然如何将这些技术应用于当今最大的模型,现在还没有头绪。但从小模型入手可以更容易地培养直觉,随着研究人员的逐步努力,关于大型语言模型的这些关键问题也将最终获得解答。

顿悟模加法

模加法是检测「顿悟」最好的方法。

(模加法指的是两个数据相加,如果合大于某一个值,结果就自动回归某一个值。以12小时计时为例,时间相加超过12点之后就会自动归零,就是一个典型的模加法。)

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

突然的泛化往往发生在在对于训练数据的记忆之后,模型一开始的输出与训练数据吻合,但随着训练不断持续,和测试数据的吻合度不断提高,出现了泛化。这个过程就叫做「顿悟」

上图来自于一个被训练来进行预测a+b mod67(即a+b的合超过67之后就会归零的模加法)的模型。

研究人员首先随机将所有成对数据分成测试数据集和训练数据集。

在训练过程中,训练数据被用来调整模型,让模型输出正确答案,而测试数据仅用于检查模型是否已经学会了一个通用的解决方案。

模型的架构也很简单:

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

一个具有24个神经元的单层MLP。模型的所有权重如下面的热图所示;通过将鼠标悬停在上面的线性图上,可以看到它们在训练过程中如何变化。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

模型通过选择与输入a和b对应的两列

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

,然后将它们相加以创建一个包含24个独立数字的向量来进行预测。接下来,它将向量中的所有负数设置为0,最后输出与更新向量最接近的

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

列。

模型的权重最初非常嘈杂,但随着测试数据上的准确性提高和模型逐渐开始泛化,它们开始展现出周期性的模式。

在训练结束时,每个神经元,也就是热图的每一行在输入数字从0增加到66时会多次在高值和低值之间循环。

如果研究人员根据神经元在训练结束时的循环频率将其分组,并将每个神经元分别绘制成一条单独的线,会更容易看出产生的变化。

这些周期性的模式表明模型正在学习某种数学结构;当模型开始计算测试样本时出现这种现象,意味着模型开始出现泛化了。

但是为什么模型会抛开记忆的解决方案?而泛化的解决方案又是什么呢?

在0和1的数列中训练模型泛化

同时解决这两个问题确实很困难。研究人员可以设计一个更简单的任务,其中研究人员知道泛化解决方案应该是什么样的,然后尝试理解模型最终是如何学习它的。

研究人员又设计了一个方案,他们先随机生成30个由0和1组成的数字组成一个数列,然后训练一个模型去预测数列中前三个数字中是否有奇数个1,如果有奇数个1,输出就为1,否则输出为0。

例如,010110010110001010111001001011等于1。

000110010110001010111001001011等于0。

基本上这就是稍微复杂一些的异或运算,略微带有一些干扰噪声。

而如果一个模型产生了泛化能力,应该就只关注序列的前三位数字进行输出;如果模型是在记忆训练数据,它就会使用到后边的干扰数字。

研究人员的模型仍然是一个单层MLP,使用固定的1,200个序列进行训练。

起初,只有训练数据准确性增加了,说明模型正在记忆训练数据。

与模算数一样,测试数据的准确性一开始基本上是随机的。

但是模型学习了一个泛化解决方案后,测试数据的准确性就急剧上升。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

下面的权重图标显示,在记忆训练数据时,模型看起来密集而嘈杂,有许多数值很大的权重(显示为深红色和蓝色方块)分布在数列靠后的位置,表明模型正在使用所有的数字进行预测。

随着模型泛化后获得了完美的测试数据准确性,研究人员看到,与干扰数字相关的所有权重都变为灰色,值非常低,模型权重全部集中在前三位数字上了。

这与研究人员预期的泛化结构相一致。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

通过这个简化的例子,更容易理解为什么会发生这种情况:

其实在训练过程中,研究人员的要求是模型要同时完成两个目标,一个是尽量高概率地输出正确的数字(称为最小化损失),另一个是使用尽量小的全权重来完成输出(称为权重衰减)。

在模型泛化之前,训练损失略微增加(输出准确略微降低),因为它在减小与输出正确标签相关的损失的同时,也在降低权重,从而获得尽可能小的权重。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

而测试数据损失的急剧下降,让模型看起来像是似乎突然开始了泛化,但其实不是,这个过程在之前就已经在进行了。

但是,如果观察记录模型在训练过程中的权重,大部分权重是平均分布在这两个目标之间的。

当与干扰数字相关的最后一组权重被权重衰减这个目标「修剪」掉时,泛化马上就发生了。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

何时发生顿悟?

值得注意的是,「顿悟」是一种偶然现象——如果模型大小、权重衰减、数据大小以及其他超参数不合适,它就不会出现。

当权重衰减过小时,模型无法摆脱对训练数据的过拟合。

增加更多的权重衰减会推动模型在记忆后进行泛化。进一步增加权重衰减会导致测试数据和训练数据的不准确率提高;模型直接进入泛化阶段。

当权重衰减过大时,模型将无法学到任何东西。

在下面的内容中,研究人员使用不同的超参数在「1和0」任务上训练了一千多个模型。

因为训练是有噪声的,所以每组超参数都训练了九个模型。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

可以看到,这个「1和0」任务模拟出了模型的记忆和泛化,但为什么这种情况会发生在模加法中呢?

首先,让我们更多地了解一层MLP如何通过构建一个可解释的泛化解决方案来解决模加法。

五个神经元的模加法

举个例子,模加法问题a+b mod67是周期性的。

从数学上讲,可以将式子的和看成是将a和b绕在一个圆圈上来表示。

泛化模型的权重也具有周期性,也就是说,解决方案可能也会有周期性。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

研究人员训练了一个更简单的模型,利用cos和sin构建一个嵌入矩阵,将a和b放在一个圆上。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

模型只用了5个神经元就完美地找到了解决方案。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

然后还是回到a+b mod67的问题上,研究人员从头训练模型,没有内置周期,这个模型有很多频率。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

然后研究人员使用离散傅里叶变换分离出频率,会分离出输入数据中的周期性模式。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

而结果就和之前在数列中数1的任务一样,随着模型的泛化,权重会迅速衰减到很低。

而且在不同的频率任务中,模型也都出现了「顿悟」

进一步的问题

什么原因导致泛化的出现?

虽然研究人员现在对用单层MLP解决模加法的机制以及它们在训练过程中出现的原因有了深入的了解,但仍然存在许多关于记忆和泛化的有趣的悬而未决的问题。

从广义上讲,权重衰减确实会导致多种模型不再记忆训练数据 。

其他有助于避免过度拟合的技术包括 dropout、较小的模型,甚至数值不稳定的优化算法 。

这些方法以复杂、非线性的方式相互作用,使得很难预先预测最终什么原因和方式会导致泛化。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

为什么记忆比概括更容易?

一种理论:记忆训练数据集的解决方法可能比泛化解决方法多得多。

因此从统计上看,记忆应该更有可能先发生。

有研究表明泛化与结构良好的表示相关。然而,这不是必要条件;一些没有对称输入的 MLP 变体在求解模加法时学习的「循环」表示较少 。

研究人员还观察到,结构良好的表示并不是泛化的充分条件。

比如这个小模型(没有权重衰减的情况下训练)开始泛化,然后切换到使用周期性嵌入进行记忆。

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

甚至可以找到模型开始泛化的超参数,然后切换到记忆,然后再切换回泛化!

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

而较大的模型呢?

首先,之前的研究证实了小型Transformer和MLP算法任务中的顿悟现象。

涉及特定超参数范围内的图像、文本和表格数据的更复杂的任务也出现了顿悟

研究人员认为:

1)训练具有更多归纳偏差和更少移动部件的更简单模型,

2)用它们来解释更大模型难以理解的部分是如何工作的

3)根据需要重复。

都可以有效帮助理解更大的模型。

而且本文中这种机制化的可解释性方法可能有助于识别模式,从而使神经网络所学算法的研究变得容易,甚至有自动化的潜力。

参考资料:

https://pair.withgoogle.com/explorables/grokking/

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

投稿号的头像投稿号注册会员
上一篇 2023年9月3日
下一篇 2023年9月3日

热点推荐

  • 全国首次!我国开展特高压交直流工程同时跨线施工

    近日,国家电网川渝1000千伏特高压交流工程、金沙江上游至湖北±800千伏特高压直流输电工程,同时完成跨越同一条500千伏输电线路放线,这在我国特高压建设中尚属首次。 在施工现场,工作人员操作无人机,带着牵引绳缓缓升空,在140米…

    2023年9月20日
    430
  • 网友感叹“躺赚”!6年这个表情已获赔759万

    “葛优躺”曾是2016年的网络热词。知名演员葛优在电视剧《我爱我家》中扮演纪春生,该角色在剧中将身体完全瘫在沙发上的放松形象被网友命名为“葛优躺”。许多新媒体账号都曾以此蹭热点营销,相关表情包随处可见。 这一躺 因为葛大爷“销魂”…

    2023年5月18日
    490
  • 缘起青葱年少(青葱年少)

    本文主要讲的是青葱年少,以及和缘起青葱年少相关的知识,如果觉得本文对您有所帮助,不要忘了将本文分享给朋友。 何炅&黄磊│20年的陪伴,从路人到知己。 何炅是北外阿拉伯语系的辅导员,兼教阿拉伯国情课。不过何老师多年前就在大本…

    2023年5月20日
    510
  • 星巴克兼职一小时38元(星巴克兼职一小时多少钱苏州)

    2018年4月,我正式成为了南京一家星巴克的员工,我兼职了总计一年多时间。那么,在星巴克工作,究竟是一种什么样的体验呢?开始,我与舍友在手机软件上认识了当时门店的店长,初步面试后店长通知我们等待区经理的面试,在等待面试时的几天,我…

    2022年9月24日
    890
  • 这故事开始一个人我认真写成了我们是什么歌(这故事开始一个人)

    最近一段时间不少小伙伴在问这故事开始一个人我认真写成了我们是什么歌?这故事开始一个人我认真写成了我们谁唱的?歌词完整版有吗?下面小编为大家带来这故事开始一个人我认真写成了我们歌名及歌词完整版介绍,感兴趣的小伙伴一起来看一下吧。 这…

    2023年5月29日
    490
  • 最新!劳荣枝家属欲起诉中国政法大学教授,啥情况?

    每经编辑:李泽东 据红星新闻12月21日报道,记者从劳荣枝家属处获悉,家属已委托律师起诉中国政法大学社会学院教授马皑名誉侵权,并在12月21日向北京互联网法院提交了诉讼材料。 劳荣枝的二哥劳声桥告诉红星新闻记者,马皑教授在公开发布…

    2022年12月22日
    730
  • 90后女生4万一年租道观引质疑,莱州景区回应:不提供斋饭住宿

    近日,一网友在小红书发博文,称自己花4万元一年租了个道观清修,养养元气。“偶尔也跟香客聊聊天,职场太内卷了,也想过做民宿,但我实在不想赔笑脸了”,她在文案中写道。 这个词条很快在社交平台有了几百万的阅读量,网友纷纷留言“还有可以租…

    2023年5月19日
    540
  • 牛头人是绿别人还是被绿(绿别人是牛头人吗)

    随着互联网的发展,现在聊天过程中经常也会出现各种有趣的网络流行用语,其中牛头人也是非常火的一个梗,牛头人是什么梗?牛头人是绿别人还是被绿?有关牛头人这个梗的含义大家还是有很多不理解的地方,下面来看下关于牛头人到底指的是什么? 牛头…

    2023年12月17日
    310
  • 马克龙回应拜登“核末日风险”警告:我们必须谨慎发言

    【环球网报道记者张晓雅】“我们必须谨慎发言”。据福克斯新闻、路透社等多家媒体8日消息,法国总统马克龙在回应美国总统拜登早些时候的警告时这样评论道。拜登此前渲染称,在俄罗斯“入侵”乌克兰之后,世界存在“核末日”风险。欧盟领导人非…

    2022年10月10日
    760
  • 水产进货渠道有哪些(湖北水产批发进货渠道)

    水产品是大家日常生活中食用的主要品类之一,因此经营水产买卖的人也不少,而水产货源对于想要开店的朋友来说,一定要找到合适的进货渠道,要把产品的品质和价格做得更好,也能有更好的销售市场。那么,水产进货渠道有哪些呢?下面我们来具体了解下…

    2023年7月11日
    450