700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

ChatGPT 引发的大模型热潮愈演愈烈,全球科技巨头和明星初创争相入局,打造以 AI 大模型为核心的竞争力和多样化商业使用需求。其中 LLaMA 系列模型,因良好的基础能力和开放生态,已积累了海量的用户和实际应用案例,成为无数开源模型后来者的模仿和竞争的标杆对象。

但如何降低类 LLaMA2大模型预训练成本,如何基于 LLaMA2通过继续预训练和微调,低成本构建 AI 大模型实际应用,仍是 AIGC 相关企业面临的关键瓶颈。

作为全球规模最大、最活跃的大模型开发工具与社区,Colossal-AI 再次迭代,提供开箱即用的8到512卡 LLaMA2训练、微调、推理方案,对700亿参数训练加速195%,并提供一站式云平台解决方案,极大降低大模型开发和落地应用成本。

开源地址:https://github.com/hpcaitech/ColossalAI

LLaMA2训练加速195%

meta 开源的 LLaMA 系列大模型进一步激发了打造类 ChatGPT 的热情,并由此衍生出了诸多项目和应用。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

最新的7B~70B LLaMA2大模型,则进一步提高了语言模型的基础能力。但由于 LLaMA2的预训练预料大部分来自英文通用知识,而仅用微调能够提升和注入的领域知识和多语言能力也相对有限。此外,高质量的专业知识和数据集通常被视为各个行业和公司的核心资产,仅能以私有化形式保存。因此,以低成本预训练 / 继续预训练 / 微调 LLaMA2系列大模型,结合高质量私有化业务数据积累,帮助业务降本增效是众多行业与企业的迫切需求与瓶颈。但 LLaMA2大模型仅发布了原始模型权重与推理脚本,不支持训练 / 微调,也未提供数据集。

针对上述空白与需求,Colossal-AI 开源了针对LLaMA2的全流程方案,并具备高可扩展性,支持从70亿到700亿参数的模型,从8卡到512卡都可保持良好的性能。

在使用8卡训练 / 微调 LLaMA2-7B 时,Colossal-AI 能达到约54% 的硬件利用率(MFU),处于业界领先水平。而对于预训练任务,以使用512张 A10040GB 预训练 LLaMA2-70B为例,DeepSpeed ZeRO3策略因显存不足而无法启动,仅能通过速度衰减较大的 ZeRO3-offload 策略启动。而 Colossal-AI 则因卓越的系统优化和扩展性,仍能保持良好性能,训练提速195%。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

Colossal-AI LLaMA-2训练 / 微调方案的高性能来源于新的异构内存管理系统 Gemini和高性能算子(包括 Flash attention2)等系统优化。新 Gemini 提供了高可扩展性,高鲁棒性,高易用性的接口。其 Checkpoint 格式与 HuggingFace 完全兼容,减小了使用和转换成本。其对于切分、offload 等的设置更加灵活且易用,能够覆盖更多硬件配置下的 LLaMA-2训练 / 微调任务。仅需数行代码即可使用:

fromcolossalai.boosterimportBoosterfromcolossalai.booster.pluginimportGeminiPluginplugin=GeminiPlugin()booster=Booster(plugin=plugin)model,optimizer,train_dataloader,criterion=booster.boost(model,optimizer,train_dataloader,criterion)

ShardFormer 多维细粒度并行

虽然对于主流硬件条件和大多数模型,Colossal-AI 的新 Gemini 已经能够提供良好的性能。但是对于一些极端硬件条件,或者是特殊模型,可能仍然需要多维并行的细粒度优化。现有其他方案通常需要分布式系统资深专家,手动对代码进行大规模重构和调优,Colossal-AI 的 ShardFormer提供了开箱即用的多维并行和算子优化的能力,仅需数行代码即可使用,在单机 / 大规模集群上都能提供良好的性能。

fromcolossalai.boosterimportBoosterfromcolossalai.booster.pluginimportHybridParallelPluginfromtransformers.models.llamaimportLlamaForCausalLM,LlamaConfigplugin=HybridParallelPlugin(tp_size=2,pp_size=2,num_microbatches=4,zero_stage=1)booster=Booster(plugin=plugin)model=LlamaForCausalLM(LlamaConfig())model,optimizer,train_dataloader,criterion=booster.boost(model,optimizer,train_dataloader,criterion)

Colossal-AI ShardFormer 支持包括 LLaMA1/2、BLOOM、OPT、T5、GPT-2、BERT、GLM 在内的主流开源模型,也可以直接使用 Huggingface/transformers 模型导入,Checkpoint 格式也与 HuggingFace 完全兼容,对比 Megatron-LM 等需重写大量代码的方案,大大提升了易用性。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

对于并行策略,已支持以下多种并行方式:张量并行、流水线并行、序列并行、数据并行、Zero 数据并行等,并可将多种并行方式组合使用,只需通过简单的配置命令,即可适配各种复杂的硬件环境 / 模型。同时,其内置了各种高性能算子,免去了繁琐的兼容 / 配置过程。其中包括:

Flash attention2

Memory efficient attention (xformers)

Fused Normalization Layer

JIT kernels

云平台大模型一站式解决

为了进一步提升开发和部署效率,Colossal-AI 团队还将上述系统优势与算力结合,提供 Colossal-AI 云平台,提供廉价算力和开箱即用的 AI 主流应用,包括对话大模型,多模态模型,生物医药等,现已开启内测。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

通过屏蔽大模型底层的分布式并行计算、内存、通信管理与优化等,AI 开发者可以继续专注于 AI 模型与算法设计,以更低成本更快速度完成 AI 大模型助力业务降本增效。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

用户只需要上传相关数据,即可无代码训练个性化私有模型,并将训练好的模型一键部署。相关的应用都经过 Colossal-AI 团队精心优化,得益于算法和系统的双面优化,能大大降低模型训练以及部署的成本。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

Colossal-AI 云平台:platform.luchentech.com

Colossal-AI 开源地址:https://github.com/hpcaitech/ColossalAI

参考链接:https://www.hpc-ai.tech/blog/70b-llama2-training

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

投稿号的头像投稿号注册会员
上一篇 2023年9月4日
下一篇 2023年9月4日

热点推荐

  • 意大利葡萄酒等级划分图片,意大利最好的红酒品牌有哪些

    意大利推行法定地区法例的时间并不很长,第一个法定地区是1966年颁布的。整体而言,虽然制度还未尽善,但法定地区制度推行以来,确实有助于提高意大利餐酒的世界地位。 1、Vino da Tavola,缩写为 VDT(日常餐酒) 日常餐…

    2022年10月2日
    800
  • 雀润是什么梗

    网上上时不时就会有一些谐音梗出现,比如最近很火的“雀润”也是一个谐音梗。这个梗是出自一个销售小哥在网上直播买车,那么雀润是什么意思?雀润是什么梗呢?下面小编就给大家带来关于雀润梗的相关含义介绍,感兴趣的小伙伴下面和小编来看看吧。 …

    2023年11月16日
    340
  • 溴怎么读

    拼音:xiù。部首:氵。笔画:13。笔顺:点、点、提、撇、竖、横折、横、横、横、横、撇、捺、点。 基础释义:非金属元素,符号Br,原子序数35。是卤族元素之一。溴的单质在常温下是暗红色的液体,易挥发而呈红色蒸气,有刺激性臭味,有毒…

    2023年10月12日
    330
  • 娱乐圈里有很多老戏骨这几位你都认识吗??

    在娱乐圈当中有很多的明星,现在有不少明星因为从小演戏就被称为老戏骨,但是往往还有很多真正的老戏骨没有被人记住,他们的演技真非常厉害,也塑造了很多的经典 ,今天我们就来说说曾经的老戏骨你认识几位? 严顺开 张嘉译 陈宝国 王丽云 ,…

    2023年4月12日 热点
    610
  • 超越《灌篮高手》!黄渤主演电影《热烈》成为2023年青春片内地票房榜冠军

    8月5日消息,猫眼专业版数据显示,董成鹏执导、黄渤、王一博领衔主演电影《热烈》累计票房破6.57亿,超《灌篮高手》票房成绩,成为2023年青春片内地票房榜冠军。 该片讲述了面对窘境仍然坚持着自己梦想的陈烁在偶然间遇到了人生伯乐丁雷…

    2023年8月5日
    390
  • 加密软件免费版(免费加密软件排名)

    加密软件哪个最好用 文档加密好的软件有《钉钉》,《WPS Office》,《文件管理》,《X文件管理器》,《文件管理大师》。《钉钉》。 域智盾 这个软件我用过,是一款能够进行文件加密、防止网络入侵、数据加密、数据防泄密、打印管理、…

    2023年12月14日
    280
  • 你喜欢的洗脑神曲有哪些?

    洗脑的BGM一直是我们日常生活的重要组成部分,这些音乐的魔力在于它们能够抓住我们的注意力,让我们在不知不觉中哼唱起来。 说起经典的洗脑神曲,不得不提的是《江南Style》。这首歌曲于2012年夏天横扫全球,其极具感染力的节奏和简单…

    2023年10月11日
    370
  • 广西一厅官被逮捕:热衷批条子 习惯于打招呼 毫无敬畏之心

    6月1日,据最高人民检察院官方微信消息,广西检察机关依法对黄方方决定逮捕。 图片来源:中国普法微信 消息称,广西壮族自治区发展和改革委员会原党组书记、主任黄方方(正厅级)涉嫌受贿一案,由广西壮族自治区监察委员会调查终结,移送检察机…

    2023年6月2日
    510
  • RNG战胜GEN!《英雄联盟》2022全球总决赛小组赛首日结果公布

    2022-10-0814:43:01作者:吴雅婷10月8日消息,今天《英雄联盟》S12小组赛比赛正式开始,在今天的小组赛中,LPL赛区的四号种子RNG以1:0的比分战胜LCK赛区的一号种子GEN,赢得胜利。在此前的世界比赛中…

    2022年10月9日
    830
  • 南京一男子报假火警被拘7天

    本报讯(通讯员 南晓轩 记者 李多闻)近日,南京江北新区发生一起男子谎报火警事件,最终该男子因扰乱社会公共秩序,被依法处以行政拘留 7天的处罚。 11月20日凌晨,南京市消防救援支队指挥中心接到报警称,江北新区江山路附近一家KTV…

    2024年1月24日
    250