AI的大模型时代 ≠ 只有大模型的AI时代

什么样的技术能经历时间洗礼还历久弥新?

答案或许可以归总为一个“三部曲”般的规律——兴起、发展和大规模应用,外加这个过程再一次演进式的迭代。

以史为鉴,引领第一次工业革命的是蒸汽机,当它演进成为内燃机并开始普及时,第二次工业革命的颠覆者——电能本身以及与它相关的各种设备正处于初创期,而在电力设备走向微电子的迭代革新时,各种燃油引擎还在持续改良和普及中。

从这个规律来看,大语言模型(简称LLM)出现后虽然霸占了所有与AI相关的关键词,吸引了所有人的注意力,但这并不代表“LLM之前无AI”。

在大模型出尽风头的同时,此前以决策为特长的老一代机器学习应用,以及侧重感知能力的“传统”深度学习应用也没闲着,它们正走过喧嚣的青春期,步入稳扎稳打的实战阶段。

何以为证?

某芯片大厂就推出了一连串的AI实战手册,分别锁定制造与能源、医药、金融、交通与物流,以及教育行业的AI实践。

在今年更新的物流交通和医疗健康AI实战手册中,就记录了很多已经或正在落地的AI应用,及如何将它们顺利部署和充分释放其性能加速潜力,当然还有它们在一些耳熟能详的头部企业深入一线的应用实例。

所以,AI不是只有大模型。AI的大模型时代也 ≠ 只有大模型的AI时代。

成熟的AI,早就已经上岗了

或许你还不敢相信,现在哪怕小小的快递背后,都已经有AI技术在加持了。

没错,而且近乎涉足了物流全流程:下单、发货、分拣、转运、配送……AI现在统统都要“管一管”。

以经典的OCR(光学字符识别)技术为例,它在物流“技术界”的地位可谓是举足轻重,大幅提高了工作效率。

比如发货时的寄件人填报地址、身份信息,电商仓库核对出货的货品信息,都可以借助OCR,“啪地一下”,实现一键录入。

随着AI技术的愈发完善和应用的加深,这种速度做到了“没有最快只有更快”。

我们熟知的韵达快递就是如此,在三段码OCR识别过程中,它原本希望AI能将OCR识别的准确率达到95%。

结果现在的AI却给韵达“上了一课”,不仅准确率直接飙到接近98%,甚至时间也给“打了下去”:从130ms降至114ms。

AI的大模型时代 ≠ 只有大模型的AI时代

△性能测试结果基于韵达于2022年10月进行的测试

而且OCR识别还仅仅是AI涉足物流行业的小小一隅,一张图来看感受下它现在所起到的power:

AI的大模型时代 ≠ 只有大模型的AI时代

嗯,AI如此all in,怪不得国内物流的速度都要起飞了呢。

不过朋友,这还仅仅是AI加速千行百业的一个案例,其实我们现在每天的出行,同样也是充斥着AI的“味道”。

例如AI视频分析技术,可以针对高速公路上的路况做到实时地分析。

不论是车流流量监控、车辆车牌识别,亦或是事故预警等等,AI可谓是将一切尽收眼底。

如此一来,便可以有效且精准地对路面状况做到把控。

再如机场,在AI技术加持下的摄像头,也可以细粒度识别航空器、车辆、人员,以及违边等情况,这样便对飞行区域的安全提供了一定的保障。

……

从以上几个小小用例中不难看出,“成熟”的AI,或者说几年前那些当红明星类的AI应用看似风光不在,但它们实则已深入到我们生活中的方方面面,并且主打的就是一个“节支增效”。

那么如此“节支增效”背后,到底是怎么做到的?

不卖关子,直接上答案——

提供帮助的正是英特尔的平台,特别是至强®️可扩展处理器。同样,我们前文所指的某芯片大厂也是英特尔,给出多个行业AI实战手册的还是它。

但解锁如此能力的,可不仅仅是一颗CPU这么简单,而是有英特尔软件层面上的优化加成;换言之,就是“软硬一体”后的结果。

简单归结:至强®️可扩展处理器及其内置的AI加速器,以及OpenVINO™️,oneAPI等一系列AI框架和优化软件打辅助。

当前影响AI应用性能的要素无非两个:算力和数据访问速度。

目前最新的第四代至强®️可扩展处理器的单颗CPU核数已经增长到最高60核。而在数据访问速度上,各级缓存大小、内存通道数、内存访问速度等都有一定程度的优化,另外在CPU Max系列中还集成了HBM高带宽内存技术。

此外,在CPU指令集上也做了优化,内置了英特尔®️高级矩阵扩展(英特尔®️AMX)等硬件加速器,负责矩阵计算,加速深度学习工作负载,堪称CPU加速AI应用的C位。

它有点类似于GPU里的张量核心(Tensor Core)。

AMX由两部分组成,一部分是1kb大小的2D寄存器文件,另一部分是TMUL模块,用来执行矩阵乘法指令。它可同时支持INT8和BF16数据类型,且BF16相较于FP32计算性能更优。

有了AMX指令集加持,性能比前一代至强®️可扩展处理器内置的矢量神经网络指令集VNNI提升达8倍,甚至更高。

除了核心硬件平台外,实际情况中帮助这些行业实战AI应用落地的,还有一系列英特尔“亲生”但不“私享”的AI软件工具。

例如前面提到的OCR加速就离不开OpenVINO™️的优化,它删减了很多训练部分所需的冗余计算,主要支持推理部分。

而且也是专门针对英特尔硬件打造的优化框架,只需5行代码就可以完成原有框架的替换。

用户可以针对不同业务场景,来优化OpenVINO™️运行参数。

这样一套软硬件组合拳打下来,英特尔不仅充分释放了CPU计算潜力,而且在实际的推理场景中也实现了近乎GPU的性能,同时还有成本低、门槛低、易上手等附加优势。

然而,这些仅仅是已经成熟上岗的AI技术在英特尔®️平台得到的优化,英特尔的能力还远不止如此。

这就要说回大模型了。

当红大模型,也在被加速

目前大语言模型正被全球各大科技公司竞相追逐,毕竟现在科技圈都将它视为未来发展的趋势所在。

虽然相比那些成熟的AI技术和应用,它距大规模落地还有段距离,但其技术领先性不容置疑,乃至“老一辈”的AI应用也有望在与它结合,或被它改造后重焕新生。

英特尔作为基础算力输出者和应用性能加速器,同样在这场你追我赶的竞技场中未雨绸缪,早有布局。

首先,大模型再先进,也需要有更多人用上它,才可充分变现其价值。要想“玩转”它,在其庞大的体量面前,成本便是一个老大难的问题。

因此,英特尔就祭出了一款增强型的“减(量)重(化)神(工)器(具)”,可以让一个十亿参数的大语言模型瘦身3/4,增强其准确性,还能有效地提升大模型在英特尔®️平台上的推理性能。

具体而言,所用到的是SmoothQuant技术,英特尔将其适配到自己的平台,并实现其增强。此方法已经整合至英特尔®️Neural Compressor。这是一个包含量化、剪枝(稀疏性)、蒸馏(知识提炼)和神经架构搜索等多种常用模型压缩技术的开源Python库,它已经支持多款英特尔®️架构的硬件,并且已经兼容TensorFlow、PyTorch、onNX Runtime 和MXNet等主流框架。

其次,在硬件层面上,英特尔也有所发力。

例如最近大火的ChatGLM-6B,其借助第四代至强®️可扩展处理器内置的英特尔®️AMX,让模型微调计算速度得以大幅提升;利用至强®️CPU Max系列处理器集成的HBM,满足大模型微调所需的大内存带宽。

AI的大模型时代 ≠ 只有大模型的AI时代

△英特尔® AMX 技术架构

除了CPU,英特尔还有专用的深度学习加速芯片Habana®️Gaudi®️2,其能在单个服务器内部署8张加速卡(称为Habana处理单元,即Habana Processing Unit,简称为HPU),每张卡内存高达96GB,可提供足够的空间来容纳大模型。

因此即使是BLOOMZ这样拥有1760亿参数的千亿级大语言模型,经英特尔优化后也能将性能时延控制在3.7秒。对于参数量为70亿的较小模型BLOOMZ-7B,在Gaudi®️2的单设备时延约为第一代Gaudi®️的37.21%;而当设备数量都增加为8后,这一百分比进一步下降至约24.33%。

AI的大模型时代 ≠ 只有大模型的AI时代

△BLOOMZ 在Gaudi®️2和第一代Gaudi®️上的推理时延测试结果

而后在软件层面上,针对像ChatGLM这样大受欢迎的大语言模型,英特尔还可以通过为其创建 OpenVINO™ stateful模型来实现优化:压缩权重以降低内存带宽使用率,提升推理速度。

这便是英特尔“软硬一体”打法在大模型应用上的直接体现了。而且硬件还不再仅限于CPU,更是有可在训练和推理性能上都可与GPU比肩,在性价比上馋哭大家的Gaudi®️。

最后在安全方面,英特尔也是做到了“鱼与熊掌兼得”:基于英特尔®️SGX/TDX的可信执行环境(TEE)可为大模型提供更安全的运行环境,还不需要拿性能做交换。

这便是英特尔在AI大模型时代中的“加速之道”了。

还会带来怎样的变革?

纵观AI技术的发展之路,不难发现英特尔在其中履行着一条非常清晰的准则——用起来才是硬道理。甚至只在数据中心和边缘中用都不够,最好每个人的每台电脑,每个信息终端设备都有独立加速AI应用的能力才能“芯”满意足。

因此英特尔已将创新使命调整为:在各种硬件产品中加入AI能力,并通过开放、多架构的软件解决方案,推动AI应用的普及,促进“芯经济”的崛起。

英特尔的“加速之道”不仅是让技术更快落地和普及,更是要以用促用,以用促新,以用促变,为下一世代的技术变革埋下伏笔。

那么英特尔这条路上是否有一个终极目标?

或许正如Intel Innovation2023上不断重复和强调的:

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

投稿号的头像投稿号注册会员
上一篇 2023年9月27日
下一篇 2023年9月27日

热点推荐

  • 《倩女幽魂》女主角花落刘亦菲(转载)

    商促网娱乐影视报道:新版《倩女幽魂》已完成前期筹备工作,于6月初在上海正式开机。男主角宁采臣由余少群饰演,女主角聂小倩最终花落刘亦菲。此外,叶伟信否认了新版《倩女幽魂》王祖贤回归的传闻。 聂小倩花落刘亦菲 在同时曝光的照片中,出现…

    2023年2月10日
    690
  • 1分钟教你学会连骨头都入味的鸡爪煲,好吃到爆哭,喜欢的收藏哟

    hello 大家好!我是骏冷的美食,看一下今天给大家带来什么样的美食?每一道特色美食都会让人赞不绝口回味无穷的因为一道特色的形成靠的是无数次的调整完善才确定最终的口味,所以它的美味是渗透灵魂的好吃到舍不得咽下也不算夸张。 今天跟大…

    2023年2月10日
    620
  • 戴尔笔记本电池更换(笔记本电池保养)

    怎样保养笔记本电池,使电池用的更久? 1、定期充放电。即使没有记忆效应的离子电池存在一定的惰性效应,长时间不使用会使理离子失去活性,需要重新激活。 2、- 调整电池电源时关闭屏幕的时间③。使用简短的显示逾时,可大幅延长电池电量使用…

    2023年9月15日
    360
  • 销售留住顾客的5个方法(三句话留住顾客)

    拥有好的产品并不意味着你就能留住客户,其实在留住客户方面,靠产品品质留客,只是留客方法中的一种。 留住客户无非就是看中的客户终身价值,但你要知道客户终身价值是随着时间的变化而变化的。顾客被留住的时间越长,他们的终生价值对企业来说增…

    2022年10月2日
    920
  • 苹果秋季发布会9月13日举行 Pro系列将配备更高倍光学变焦镜头

    苹果公司将于9月13日上午1点举行2023年秋季新品发布会,发布会将在加利福尼亚州库比蒂诺的苹果总部举行。预计苹果将发布新一代iPhone手机,包括6.1英寸的iPhone15、6.7英寸的iPhone15Plus、6.1英寸的i…

    2023年8月30日
    370
  • VampNet:一种用于音乐合成、压缩、修复等AI音乐生成方法

    极客号(Daydx.com)7月18日 消息:由于离散声学标记建模的发展,最近在语音和音乐的自回归创建方面取得了重大改进。研究人员开发了一种名为 VampNet 的音乐生成方法,它利用了声学token建模和并行迭代解码的技术。 据…

    2023年7月18日
    410
  • 高端旗舰功能IP68下放Redmi Note 13 Pro !卢伟冰:同档绝无仅有

    快科技9月19日消息,没想到,原本高端旗舰上的IP68功能如今会下放到终端机型上。 今日,Redmi宣布Redmi Note 13 Pro 支持IP68防尘防水,官方称1.5米水深,30分钟正常使用”。 Redmi品牌总经理卢伟冰…

    2023年9月19日
    370
  • 东京有哪些著名的寿司店?

    我们总是喜欢去的日本寿司店。毕竟这是来日本必打卡的美食之一!那么,今天就让我们来了解一下日本东京这里受欢迎的寿司店吧!最好供你参考! 寿司三昧 本店 这是地良务封是措破刘甲望动日本第一家24小时营业的寿司店,位于筑地的OTC市场。…

    2023年9月1日
    380
  • 赘怎么读什么意思(爨怎么读什么意思)

    zhuì。赘,汉字。赘是形声。字从敖,从贝,贝亦声。“敖”义为“抬高、抬升”。“贝”指“价值”。“敖”与“贝”联合起来表示“价值提升”。赘组词:赘笔、累赘、赘言、赘疣、赘述、赘瘤、冗赘、招赘、入赘等。…

    2022年10月11日
    730
  • 本轮巴以冲突已造成双方超1.55万人死亡 以色列与哈马斯接近达成释放被扣押人员协议

    央广网北京11月22日消息 据中央广播电视总台中国之声《新闻和报纸摘要》报道,据巴以双方公布的最新数据显示,截至目前,本轮冲突已造成巴以双方至少15546人死亡。 巴勒斯坦加沙地带卫生部门21日发表声明说,以军当天袭击加沙地带中部…

    2023年12月12日
    280