700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

ChatGPT 引发的大模型热潮愈演愈烈,全球科技巨头和明星初创争相入局,打造以 AI 大模型为核心的竞争力和多样化商业使用需求。其中 LLaMA 系列模型,因良好的基础能力和开放生态,已积累了海量的用户和实际应用案例,成为无数开源模型后来者的模仿和竞争的标杆对象。

但如何降低类 LLaMA2大模型预训练成本,如何基于 LLaMA2通过继续预训练和微调,低成本构建 AI 大模型实际应用,仍是 AIGC 相关企业面临的关键瓶颈。

作为全球规模最大、最活跃的大模型开发工具与社区,Colossal-AI 再次迭代,提供开箱即用的8到512卡 LLaMA2训练、微调、推理方案,对700亿参数训练加速195%,并提供一站式云平台解决方案,极大降低大模型开发和落地应用成本。

开源地址:https://github.com/hpcaitech/ColossalAI

LLaMA2训练加速195%

meta 开源的 LLaMA 系列大模型进一步激发了打造类 ChatGPT 的热情,并由此衍生出了诸多项目和应用。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

最新的7B~70B LLaMA2大模型,则进一步提高了语言模型的基础能力。但由于 LLaMA2的预训练预料大部分来自英文通用知识,而仅用微调能够提升和注入的领域知识和多语言能力也相对有限。此外,高质量的专业知识和数据集通常被视为各个行业和公司的核心资产,仅能以私有化形式保存。因此,以低成本预训练 / 继续预训练 / 微调 LLaMA2系列大模型,结合高质量私有化业务数据积累,帮助业务降本增效是众多行业与企业的迫切需求与瓶颈。但 LLaMA2大模型仅发布了原始模型权重与推理脚本,不支持训练 / 微调,也未提供数据集。

针对上述空白与需求,Colossal-AI 开源了针对LLaMA2的全流程方案,并具备高可扩展性,支持从70亿到700亿参数的模型,从8卡到512卡都可保持良好的性能。

在使用8卡训练 / 微调 LLaMA2-7B 时,Colossal-AI 能达到约54% 的硬件利用率(MFU),处于业界领先水平。而对于预训练任务,以使用512张 A10040GB 预训练 LLaMA2-70B为例,DeepSpeed ZeRO3策略因显存不足而无法启动,仅能通过速度衰减较大的 ZeRO3-offload 策略启动。而 Colossal-AI 则因卓越的系统优化和扩展性,仍能保持良好性能,训练提速195%。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

Colossal-AI LLaMA-2训练 / 微调方案的高性能来源于新的异构内存管理系统 Gemini和高性能算子(包括 Flash attention2)等系统优化。新 Gemini 提供了高可扩展性,高鲁棒性,高易用性的接口。其 Checkpoint 格式与 HuggingFace 完全兼容,减小了使用和转换成本。其对于切分、offload 等的设置更加灵活且易用,能够覆盖更多硬件配置下的 LLaMA-2训练 / 微调任务。仅需数行代码即可使用:

fromcolossalai.boosterimportBoosterfromcolossalai.booster.pluginimportGeminiPluginplugin=GeminiPlugin()booster=Booster(plugin=plugin)model,optimizer,train_dataloader,criterion=booster.boost(model,optimizer,train_dataloader,criterion)

ShardFormer 多维细粒度并行

虽然对于主流硬件条件和大多数模型,Colossal-AI 的新 Gemini 已经能够提供良好的性能。但是对于一些极端硬件条件,或者是特殊模型,可能仍然需要多维并行的细粒度优化。现有其他方案通常需要分布式系统资深专家,手动对代码进行大规模重构和调优,Colossal-AI 的 ShardFormer提供了开箱即用的多维并行和算子优化的能力,仅需数行代码即可使用,在单机 / 大规模集群上都能提供良好的性能。

fromcolossalai.boosterimportBoosterfromcolossalai.booster.pluginimportHybridParallelPluginfromtransformers.models.llamaimportLlamaForCausalLM,LlamaConfigplugin=HybridParallelPlugin(tp_size=2,pp_size=2,num_microbatches=4,zero_stage=1)booster=Booster(plugin=plugin)model=LlamaForCausalLM(LlamaConfig())model,optimizer,train_dataloader,criterion=booster.boost(model,optimizer,train_dataloader,criterion)

Colossal-AI ShardFormer 支持包括 LLaMA1/2、BLOOM、OPT、T5、GPT-2、BERT、GLM 在内的主流开源模型,也可以直接使用 Huggingface/transformers 模型导入,Checkpoint 格式也与 HuggingFace 完全兼容,对比 Megatron-LM 等需重写大量代码的方案,大大提升了易用性。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

对于并行策略,已支持以下多种并行方式:张量并行、流水线并行、序列并行、数据并行、Zero 数据并行等,并可将多种并行方式组合使用,只需通过简单的配置命令,即可适配各种复杂的硬件环境 / 模型。同时,其内置了各种高性能算子,免去了繁琐的兼容 / 配置过程。其中包括:

Flash attention2

Memory efficient attention (xformers)

Fused Normalization Layer

JIT kernels

云平台大模型一站式解决

为了进一步提升开发和部署效率,Colossal-AI 团队还将上述系统优势与算力结合,提供 Colossal-AI 云平台,提供廉价算力和开箱即用的 AI 主流应用,包括对话大模型,多模态模型,生物医药等,现已开启内测。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

通过屏蔽大模型底层的分布式并行计算、内存、通信管理与优化等,AI 开发者可以继续专注于 AI 模型与算法设计,以更低成本更快速度完成 AI 大模型助力业务降本增效。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

用户只需要上传相关数据,即可无代码训练个性化私有模型,并将训练好的模型一键部署。相关的应用都经过 Colossal-AI 团队精心优化,得益于算法和系统的双面优化,能大大降低模型训练以及部署的成本。

700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

Colossal-AI 云平台:platform.luchentech.com

Colossal-AI 开源地址:https://github.com/hpcaitech/ColossalAI

参考链接:https://www.hpc-ai.tech/blog/70b-llama2-training

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年9月4日 18:12
下一篇 2023年9月4日 18:13

热点推荐

  • 哺乳期感染新冠可以母乳喂养吗??专家解答

    宝妈在哺乳期感染新冠,可以母乳喂养么?“阳康”之后,可以母乳喂养么?1月4日,陆军军医大学西南医院妇产科主任王丹解答了相关问题。 上游新闻:哺乳期妈妈阳了,能不能母乳喂养? 王丹:哺乳期的妈妈如果感染了新冠病毒,可以进行母乳喂养。…

    热点 2023年3月20日
    130
  • 才38岁,胰腺癌晚期!“癌中之王”该怎么防?

    相比于心肝脾肺肾,胰腺这个器官好像没什么存在感,很多人可能连它在哪个位置都不知道。 但平时一声不吭的胰腺,一出问题就很容易出大问题。很多人感到不适时,一检查就是胰腺癌晚期,让人猝不及防。 01 38岁!确诊胰腺癌晚期 38岁的张先…

    热点 2023年11月20日
    117
  • 网站推广的4大方法(怎么样进行网站推广)

    怎么样进行网站推广(如何进行网站推广?) 近几年来,互联网行业中常见的网站推广方式主要有以下三种:SEM营销、SEO优化、B2B营销,这些都是互联网上常见的网站推广营销模式,也是企业网站想要拓展消费群体必须运用的重要手段,同时还是…

    热点 2022年10月10日
    156
  • 员工贷款上千万养公司 郑州育人教育集团:争取10月底还钱

    近期,河南郑州育人教育集团让员工贷款养企业的事件引发热议,记者赶赴郑州展开调查。 最近,计划报名某考试的李女士,突然发现自己的征信出现了不良记录,无法报考。一头雾水的她去银行询问才知道,自己以前帮工作单位借贷的款项出了问题。 时间…

    热点 2023年9月9日
    112
  • 元旦小长假首日火车票明天开售

    元旦小长假首日火车票将于16日开售,定好闹钟准备抢票啦! 16日起火车票开售 按照15天车票预售期规定,元旦小长假首日(12月30日)火车票将于12月16日开售,12月31日火车票于12月17日开售,元旦当天火车票于12月18日开…

    热点 2023年12月26日
    112
  • 日本气象厅解除全部海啸预警

    观点网讯:1月2日,日本气象厅于当地时间上午10点(北京时间上午9点)解除了全部海啸预警。此次海啸预警的解除,对于日本沿海地区的居民和企业来说,无疑是一个重要的消息。 据相关数据显示,本次海啸预警共持续了数小时,期间引发了广泛的关…

    热点 2024年1月8日
    101
  • 14年歌曲排行榜(14年歌曲排名)

    2014流行歌曲 《小苹果》《小苹果》是筷子兄弟演唱的歌曲,由王太利创作词曲,是电影《老男孩之猛龙过江》的宣传曲。2014年,该歌曲获得全美音乐奖“年度国际最佳流行音乐奖” 、Mnet亚洲音乐奖“中国最受欢迎歌曲奖”。 《愿得一人…

    热点 2024年1月9日
    116
  • 刀郎花妖歌词是什么(刀郎花妖歌词是什么意思)

    近期,刀郎推出了新专辑,给大家带来几首新歌,比如大家争议颇大的《罗刹海市》,另外《花妖》也是其中的歌曲之一。据介绍,这些都是通过山海经中的内容衍生的歌曲,歌曲和曲调都是亲自编写的,让歌曲更加富有深意,那么花妖歌词是什么呢?下面我们…

    热点 2023年7月31日
    295
  • 喜欢偶像剧的有福了!下半年6部现偶剧来临,你最期待哪一部?

    经历了暑期古偶浪潮,9月开学季到来,不少偶像剧开始纷纷排播定档,这让不少喜欢看现偶剧的观众大呼期待。 1.张晚意、孙怡《我知道我爱你》 《长相思》播出后,张晚意的剧集一个个都被抬了上来,而鹅今天也跟着放出了《我知道我爱你》的海报,…

    热点 2023年11月27日
    130
  • 东北虎遇见南方“小土豆”秒变“咪咪”

    近日在黑龙江,一则关于游客与东北虎互动的新闻引发了广泛关注。据报道,一名游客在动物园内,通过铁网隔空对着东北虎的大脸疯狂撒雪,而老虎则表现得一脸无奈又安静。这场特殊的互动情景在社交媒体上传开,引发了网友们的热议。 这名游客的举动让…

    热点 2024年1月2日
    124

发表回复

登录后才能评论