大语言模型科普:涌现

提到大语言模型,大家都能够联想到一个突出能力,那就是涌现能力。那么涌现能力是什么?我们该如何理解涌现?本文针对该现象展开分析,为你科普大语言模型的涌现,希望对你有所帮助。

我喜欢简单的快乐,那是复杂最后的避难所。——奥斯卡·怀尔德

提到大语言模型,经常会听到其一个突出的能力:涌现能力。那么涌现能力是什么呢?想要深入了解涌现能力的读者,建议仔细阅读此文。

我们先来看一下涌现的定义:

一个系统所表现出来的特性与它的组成个体简单相加所表现出的特性存在很大不同,这一整体的系统行为被称作“涌现行为”。

提取定义中的关键字:系统、个体、特性、简单相加、不同。

单看定义,涌现的含义似乎仍如雾里看花,看得不是那么真切。也有人套用“量变引起质变”解释涌现能力。道理上讲没错,但是对于清晰理解涌现似乎帮助也不大。

涌现是复杂科学中一个非常重要的概念。根据笔者的了解到的情况,只能非常抱歉地告诉各位:以人类目前的知识和认知水平,还无法定量解释涌现现象。

复杂科学本身就太复杂了(不然为什么叫复杂科学呢),而且涌现现象也太常见了,信息科学、神经学、生态学、经济学、社会学等各个研究领域都存在大量的涌现现象。

那么该怎么理解涌现呢?

既然不能定量分析,那咱们就只能定性分析。演绎法行不通,咱们就尝试归纳法。

一、蜂群的涌现行为

蜜蜂是一种神经系统非常简单的生物。

著名的动物学教授、诺贝尔奖得主弗里施教授发现:蜜蜂可以通过一种叫“八字舞”的舞蹈来相互交流信息。当一只小蜜蜂在外面发现食物,例如一大片开得正盛的花海,它会兴奋地飞回蜂巢,给同伴们表演一段热情洋溢的舞蹈。这段舞蹈的飞行路径就像阿拉伯数字“8”那样,包含一个来回摇摆和一个回头的动作。通过舞蹈的长度和频率,蜜蜂能精确地告诉同伴食物的具体位置和距离。举例来说,它摇起臀部的时间越长,代表食物距离就越远。

更神奇的是,其他蜜蜂看到这段舞蹈之后,就能解码出信息,然后按照提供的地址找到那片花海盛宴。这就是大自然的奇妙算法:每只蜜蜂的智力或许不高,但通过这种特定的交流方式,整个蜂群就能发挥出强大的“集体智慧”。

蜜蜂不仅会跳舞,还有一手避暑御寒的本事。蜜蜂要繁衍下一代,就必须在狭小的蜂巢里维持一个适宜的温度。当蜂巢太冷的时候,蜜蜂们会紧紧挤在一起,疯狂振翅以增加温度。当蜂巢太热的时候,蜜蜂们则会散开,扇动翅膀给蜂巢降温。

有意思的是,每只蜜蜂开始升温或降温翅膀的温度临界点,取决于它们的遗传特征。也就是说,那些基因相近的蜜蜂,会在温度低于某个点时觉得冷,聚集在一起“抱团取暖”。同样,当温度高于这个点时,它们也会因为“热得慌”而散开,扇动翅膀给蜂巢降温。

要理解这种现象,我们不能简单地把蜜蜂群看成一群个体。实际上,蜜蜂群是一个复杂的系统,每只蜜蜂都扮演着系统维持稳定的重要角色。虽然每只蜜蜂的行为都有差异,但通过相互协调,它们最终达成了群体目标——维持蜂巢的温度在最适宜的范围内。

这种自组织的集体智慧实在太神奇了。“一支蜜蜂哪里抵挡得了寒风”,但当蜜蜂聚集在一起就足以抵挡气温变化带来的威胁。

二、蚁群的涌现行为

自然界中还有另外一种个体非常简单,但是群体能力非常强大的生物——蚂蚁。

蚂蚁,虽然个体行为看起来纯粹反射性地被外界条件所驱动,即几乎完全是被外界环境驱使的。但这并不代表它们就是简单的“行动机器”。实际上,蚂蚁的大部分行为都可以用几条简单规则来描述。例如:

用大颚紧紧夹住目标物;

沿着信息素的浓度上升或下降方向行进(信息素是蚂蚁用来编码信息的气味,比如“这条路有食物”或“这条路要打仗”);

死去的蚂蚁会分泌一种激素,蚂蚁会通过气味判断同伴是否活着。

一旦蚂蚁遇到这些规则未涵盖的新环境,它们会处在极大危险中。在规则之外的环境里,大多数蚂蚁,特别是工蚁,很难存活超过几个星期。

不过,正是依靠这几条简单的行为规则,蚂蚁群体发挥出惊人的智慧。每只蚂蚁都像是一个微观的决策单元,它们相互协调、相互配合,最终汇聚成一个高效的整体。能完成非常复杂的任务,比如建造庞大的蚁穴、合作捕猎等。一个蚁群中各个成员的行为及其相互作用决定了整个蚁群的行为。然而作为一个群体,蚁群所显示出的灵活性却大大地超过了其个体成员的能力范围。蚁群可以感知并应对在很大地理范围内出现的食物、外敌、水患和很多其他现象。蚁群能够把领地延伸到很远的地方,按照有利于群体的方式来改变周围环境。蚁群的寿命一般要比其个体成员的寿命长几个数量级。

这种简单规则带来的集体智慧,让蚂蚁这种体型微小的昆虫,成为了地球上最成功的社会物种之一。它们灵活运用基本规则应对环境的变化,在漫长的演化历程中不断进化,最终在地球上得以广泛的繁衍生息。

单看每一个蜜蜂/蚂蚁个体,分析其身体结构和行为,我们绝对无法想象蜂群/蚁群能够具备上述那般复杂的群体行为。即蜂群/蚁群出现了与蜜蜂/蚂蚁个体简单相加无法得到的集体智慧,这种集体智慧就是一种涌现能力。

生命游戏的涌现行为:

康韦(Conway)的生命游戏:在该游戏中,系统在两维网格中以步调一致的方式运转,其中每个细胞要么是死的要么就是活的。其规则如下:

刚好具有三个“活”邻居的“死”细胞将被“复活”,在下一个阶段变成一个有活力的细胞,否则的话,它仍然是死的。

拥有两到三个生动活泼邻居的活细胞能“存活”到下一个阶段;否则,它就会消失(要么出于“孤单”,要么由于“过度拥挤”)。

总体来说,该系统中一个拥有中间数量(邻居生命)的生命将得以延续(一个正向反馈),然而过多或过少的邻居生命将导致死亡(一个负向反馈)。

大语言模型科普:涌现

通过上述的简单规则,在不同的初始状态下,能够将产生一系列在时空上都显著的全局模式,这些全局模式由一系列简单的微观规则所涌现。

比如:生命游戏中的一个滑翔机是一个贯穿于整个空间的活细胞的布局配置。在每一个连续的时间步长(从左到右),一系列活细胞基于简单的、局部的游戏规则而改变。在四个时间步长以后,重新出现了活细胞的初始配置,仅仅向右下移动了一个细胞的位置。如果左边部分没有受到干扰,该结构就会继续“滑翔”穿越整个空间。

大语言模型科普:涌现

还有更多神奇的生命游戏模式,感兴趣的读者不妨自行搜索,感受一下生命游戏“涌现”出的魅力。

三、简单的涌现行为探索

我们还可以设定一些更简单的规则,方便我们观察涌现行为。

8.1表是这样一个映射:将每个可能的输入状态映射到某个输出状态。这个规则表的第一行(状态0)规定,如果一个主体及其两个邻居在上一次采取的行动都是0,那么该主体在下一个时期也将采取行动0。下一行(状态1)表明如果目标主体和它左边的邻居上一次采取的行动是0,右边的邻居采取的行动是1,那么该主体将采取行动1,等等。

大语言模型科普:涌现

取20个以环形前后相邻的数字,即将20个数字首尾相连,这样每个数字左右都有一个邻居,可以根据邻居和自己当前的状态决定下一个状态。

这个简单规则导致了一些有趣的系统行为。正如可从表8.2看到的,在整个图表中涌现出了“由0组成的向下的三角形”这种一致的宏观结构。这些三角形态的规模远远超出了行为规则的规模。因此,即使个体行为只是基于从三个位置上所观察到的行动而决定,涌现出来的一致的三角形结构所包含的位置却远多于三个(例如,在时间步12开始形成的一个三角形,它的底边跨越了20个位置中的13个)。

大语言模型科普:涌现

这不由得让人想到了亚当·斯密的看不见的手,系统中主体的行动就好像正被某种看不见的力量协调着一样,创造出超出任何个体意图的模式。

四、语言模型的涌现

大型语言模型的发展历程并不完全一帆风顺。

回顾深度学习发展的前10年,模型的性能提高主要依赖于网络结构的变革。由于“模型尺寸呈指数增长,性能只会线性增加”的语言模型的缩放定律的现象,研究人员发现,即便是最大的GPT-3模型,在有提示的情况下,其性能也不不如精心调教的小模型。同时超大的网络规模极大增加训练所需数据量、训练和推理成本。

所以,当时并没有必要铤而走险,投入大量资源去训练一个“庞然大物”。

大语言模型科普:涌现

然而,随着神经网络设计技术的日臻成熟,要仅通过优化网络结构来获得显著性能提高已然困难重重。近年来,着计算机算力的提高和数据集规模的扩大,研究者开始把目光转向模型规模的扩张。实验结果显示。

一旦模型大小达到某个“临界质量”,其性能提高将远超比例关系,呈现出量变引发的质变。简而言之,当模型的参数数量超过某个阈值,它会突然展现出远超小模型的强大能力。这就催生了大规模预训练语言模型的蓬勃发展,尤其在自然语言处理领域。

大语言模型科普:涌现

大语言模型的参数规模有多快呢?我们不妨来看一下有网友统计的大语言模型的参数量。据说现在功能最强大的大语言模型GPT-4的参数规模已经超过了万亿,短短4、5年的时间就增长了超100倍。

大语言模型科普:涌现

大语言模型为什么能力这么强大?本质的原因在于超大规模的参数。每个神经网络单元都有简单、可描述的运算规则,然而大量的神经网络单元连接在一起,就涌现出组成其的神经网络单元、层所不具备的能力。

那么为什么是语言模型的规模会出现暴涨,并且受到业内乃至社会的广泛关注呢?

笔者认为原因之一如下:语言是人类最基本的符号系统之一。它是人们传递和交流信息的主要方式之一。语言不仅是人们交流的工具,还是人们认知的基础。语言推动认知的发展和变化,影响人们对自身、社会和世界的看法和理解。语言可以使人们意识到自己认知的差异,这种差异又反过来影响了语言本身的使用。

有许多研究都表明语言是人类理解世界的基础。 例如,心理语言学家和神经语言学家发现,语言理解和产生的大脑机制涉及到一些基本的认知过程和神经网络。这些过程和网络在与语言无关的认知任务中也会被使用,例如视觉感知和决策制定。此外,发展心理学家和认知科学家也发现,婴幼儿通过语言来理解世界,而不会像成年人那样依赖语言来思考和感知。

因此大语言模型是一种对人类认知世界基础方式的一种颠覆性技术,受到广泛关注和具备巨大的应用前景也就不足为奇了。

总结

涌现无处不在,生物体、社群组织、科技、文化、文明等各领域涌现出的不可思议的特性,构成了我们身边的世界。

通过聪明、复杂的方式,根据十分简单的原则,我们可以用电线将几个简单的模块单元(电阻、电容、电感和晶体管)连接起来从而生产出拥有奇迹般强大力量、能够以闪电般速度执行困难任务的复杂产品——电子计算机。

在意识知觉的背后却蕴含着涉及数十亿神经元的精致而复杂的大脑活动,当这些活动持续半秒后意识才会涌现出来。意识是涌现系统现象,而不是大脑中的神经通路和神经元的总和所引发的后果。

基于信息科学和脑科学的大语言模型,涌现出了类人的智慧。同涌现现象一样,以人类当前的知识水平,难以解释大语言模型的机理,然而仍然不妨碍我们观察、总结、应用大语言模型。就像虽然我们不懂脑子为什么能让我们拥有智慧,我们仍然可以用自己的智慧去解决各种问题。

希望本文能对各位读者理解大语言模型有所帮助,感谢阅读!

专栏作家

一直产品汪,微信公众号:apmdogy,人人都是产品经理专栏作家。逻辑型产品经理,致力于将科学思维与产品经理方法论结合。关注人工智能、教育领域,擅长产品孵化、需求挖掘、项目管理、流程管理等产品技能。

题图来自Unsplash,基于CC0协议。

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

投稿号的头像投稿号注册会员
上一篇 2023年6月14日
下一篇 2023年6月14日

热点推荐

  • 长度单位大全表(米的单位换算公式大全)

    位换算题是小学低年级数学学习重点之一。单位换算记忆不够深刻,孩子经常混淆运用,容易出现计算失误,进率错误等问题。 牢记单位换算口诀,才能准确计算。 口诀: 大化小,往右移,进率有几个“0”,就移几位。 小化大,往左移,进率有几个“…

    2023年3月20日
    650
  • 多国曾现HMPV病毒感染,尚无治疗药物和疫苗

    5月31日,据美国疾控中心(CDC)的呼吸道病毒监测系统显示,今年春季以来,人类偏肺病毒(HMPV)在美国各地区呈现高发态势,该病毒正肆虐美国各大医院的重症监护病房和儿科医院。 6月3日,某三甲医院感染控制中心主任医师告诉人民日报…

    2023年6月4日
    530
  • sem竞价的玩法(sem运营是什么意思)

    一直在讲SEO方面的内容,从阅读量能看出来大家的兴趣不高;今天分享SEM的知识点,SEO没讲的内容后期补上。 SEM和SEO都属于搜索引擎营销;区别是SEM是花钱的,SEO是免费的;SEM见效快,最快当天就能见效,SEO见效是有周…

    2022年10月14日 热点
    880
  • 夫妻同床5年 发现丈夫染色体是女性 丈夫变“姐妹”

    拥有爱情的“结晶” 是很多夫妻最朴实的愿望 但现实中 并非每对夫妻都能顺利如愿 小刘(化名)和丈夫结婚5年 婚后生活和谐,夫妻恩爱 然而 身边的朋友都开始二胎三胎了 他们夫妻却迟迟没能迎来他们的孩子 素来淡定的小刘 再也按捺不住内…

    2023年11月2日
    360
  • 江苏盐城一轿车撞人致2死6伤 24岁司机已被警方控制

    7月13日,江苏盐城市公安局亭湖分局在官方微信发布通报称,2023年7月13日11时33分,亭湖区人民路与海纯路路口发生一起轿车撞人事故,致2人死亡、6人受伤。接报警后,公安机关迅速派员赶赴现场处置,并协助医护人员救治伤者。 目前…

    2023年7月13日
    490
  • iPhone 15 Pro Max跑分曝光:提升11%

    苹果iPhone 15系列手机于上周五开放预售,并于9月22日正式发售。安兔兔最近发现,在iPhone 15 Pro Max的跑分数据上,该款新机的综合得分达到了1641883分。其中, CPU 综合成绩为392643分, GPU…

    2023年9月21日
    430
  • 微雨燕双飞茉喜结局介绍

    微雨燕双飞电视剧是双女主吗 《微雨燕双飞》电视剧是双女主:茉喜和白凤瑶。不管是剧还是小说,茉喜和凤瑶是姐妹,也是乱世里互相帮衬的姐妹,一起对抗困难。 茉喜的戏份更多一些,人设更丰满,经历更坎坷一些。 白凤瑶和茉喜相比,戏份没那么多…

    2023年6月9日 热点
    520
  • 五战全胜!孙颖莎4比1力挫陈幸同,夺得WTT澳门赛女单冠军

    北京时间10月23日消息,2022年世界乒乓球职业大联盟WTT澳门冠军赛展开第五日较量。女单决赛,世界排名第一的孙颖莎发挥出色,以4比1击败队友陈幸同,以五战全胜的成绩夺得冠军。 孙颖莎近几年的进步有目共睹,是世界大赛决赛的常客,…

    2022年10月23日
    880
  • 郭文仓

    屯兰矿历任矿长名单 年2月22日 山西古交 15人 105人山西古交市屯兰煤矿2月22日晨2时许发生瓦斯爆炸事故,造成有74人遇难。爆炸发生时,井下436名矿工中,有375人陆续升井。 在国内一流的智能化设备中间,有许多是屯兰的自…

    2023年7月3日
    580
  • 谢娜回应机场辱骂事件,表示助理没事是球迷的责任,自己被嘲讽太多了

    作为圈内模范夫妻,谢娜和张杰很有魅力.每次出现在机场都有粉丝在等待,所以也发生了不同的事情。之所以会这样,是因为他和张杰现在因为殴打助手的事情深陷舆论之中。 谢娜回应机场袭警案 虽然他们已经公开道歉了,但是怎么看都非常无理,所以当…

    2023年5月4日 热点
    540