700 亿参数 LLaMA2 训练加速 195%，基础大模型最佳实践再升级

投稿号 • 2023年9月4日 18:13 • 热点 • 阅读 118

ChatGPT 引发的大模型热潮愈演愈烈，全球科技巨头和明星初创争相入局，打造以 AI 大模型为核心的竞争力和多样化商业使用需求。其中 LLaMA 系列模型，因良好的基础能力和开放生态，已积累了海量的用户和实际应用案例，成为无数开源模型后来者的模仿和竞争的标杆对象。

但如何降低类 LLaMA2大模型预训练成本，如何基于 LLaMA2通过继续预训练和微调，低成本构建 AI 大模型实际应用，仍是 AIGC 相关企业面临的关键瓶颈。

作为全球规模最大、最活跃的大模型开发工具与社区，Colossal-AI 再次迭代，提供开箱即用的8到512卡 LLaMA2训练、微调、推理方案，对700亿参数训练加速195%，并提供一站式云平台解决方案，极大降低大模型开发和落地应用成本。

开源地址:https://github.com/hpcaitech/ColossalAI

LLaMA2训练加速195%

meta 开源的 LLaMA 系列大模型进一步激发了打造类 ChatGPT 的热情，并由此衍生出了诸多项目和应用。

最新的7B~70B LLaMA2大模型，则进一步提高了语言模型的基础能力。但由于 LLaMA2的预训练预料大部分来自英文通用知识，而仅用微调能够提升和注入的领域知识和多语言能力也相对有限。此外，高质量的专业知识和数据集通常被视为各个行业和公司的核心资产，仅能以私有化形式保存。因此，以低成本预训练 / 继续预训练 / 微调 LLaMA2系列大模型，结合高质量私有化业务数据积累，帮助业务降本增效是众多行业与企业的迫切需求与瓶颈。但 LLaMA2大模型仅发布了原始模型权重与推理脚本，不支持训练 / 微调，也未提供数据集。

针对上述空白与需求，Colossal-AI 开源了针对LLaMA2的全流程方案，并具备高可扩展性，支持从70亿到700亿参数的模型，从8卡到512卡都可保持良好的性能。

在使用8卡训练 / 微调 LLaMA2-7B 时，Colossal-AI 能达到约54% 的硬件利用率（MFU），处于业界领先水平。而对于预训练任务，以使用512张 A10040GB 预训练 LLaMA2-70B为例，DeepSpeed ZeRO3策略因显存不足而无法启动，仅能通过速度衰减较大的 ZeRO3-offload 策略启动。而 Colossal-AI 则因卓越的系统优化和扩展性，仍能保持良好性能，训练提速195%。

Colossal-AI LLaMA-2训练 / 微调方案的高性能来源于新的异构内存管理系统 Gemini和高性能算子（包括 Flash attention2）等系统优化。新 Gemini 提供了高可扩展性，高鲁棒性，高易用性的接口。其 Checkpoint 格式与 HuggingFace 完全兼容，减小了使用和转换成本。其对于切分、offload 等的设置更加灵活且易用，能够覆盖更多硬件配置下的 LLaMA-2训练 / 微调任务。仅需数行代码即可使用:

fromcolossalai.boosterimportBoosterfromcolossalai.booster.pluginimportGeminiPluginplugin=GeminiPlugin（）booster=Booster(plugin=plugin)model，optimizer，train_dataloader，criterion=booster.boost(model，optimizer，train_dataloader，criterion)

ShardFormer 多维细粒度并行

虽然对于主流硬件条件和大多数模型，Colossal-AI 的新 Gemini 已经能够提供良好的性能。但是对于一些极端硬件条件，或者是特殊模型，可能仍然需要多维并行的细粒度优化。现有其他方案通常需要分布式系统资深专家，手动对代码进行大规模重构和调优，Colossal-AI 的 ShardFormer提供了开箱即用的多维并行和算子优化的能力，仅需数行代码即可使用，在单机 / 大规模集群上都能提供良好的性能。

fromcolossalai.boosterimportBoosterfromcolossalai.booster.pluginimportHybridParallelPluginfromtransformers.models.llamaimportLlamaForCausalLM，LlamaConfigplugin=HybridParallelPlugin（tp_size=2，pp_size=2，num_microbatches=4，zero_stage=1）booster=Booster(plugin=plugin)model=LlamaForCausalLM(LlamaConfig())model，optimizer，train_dataloader，criterion=booster.boost(model，optimizer，train_dataloader，criterion)

Colossal-AI ShardFormer 支持包括 LLaMA1/2、BLOOM、OPT、T5、GPT-2、BERT、GLM 在内的主流开源模型，也可以直接使用 Huggingface/transformers 模型导入，Checkpoint 格式也与 HuggingFace 完全兼容，对比 Megatron-LM 等需重写大量代码的方案，大大提升了易用性。

对于并行策略，已支持以下多种并行方式:张量并行、流水线并行、序列并行、数据并行、Zero 数据并行等，并可将多种并行方式组合使用，只需通过简单的配置命令，即可适配各种复杂的硬件环境 / 模型。同时，其内置了各种高性能算子，免去了繁琐的兼容 / 配置过程。其中包括:

Flash attention2

Memory efficient attention （xformers）

Fused Normalization Layer

JIT kernels

云平台大模型一站式解决

为了进一步提升开发和部署效率，Colossal-AI 团队还将上述系统优势与算力结合，提供 Colossal-AI 云平台，提供廉价算力和开箱即用的 AI 主流应用，包括对话大模型，多模态模型，生物医药等，现已开启内测。

通过屏蔽大模型底层的分布式并行计算、内存、通信管理与优化等，AI 开发者可以继续专注于 AI 模型与算法设计，以更低成本更快速度完成 AI 大模型助力业务降本增效。

用户只需要上传相关数据，即可无代码训练个性化私有模型，并将训练好的模型一键部署。相关的应用都经过 Colossal-AI 团队精心优化，得益于算法和系统的双面优化，能大大降低模型训练以及部署的成本。

Colossal-AI 云平台:platform.luchentech.com

Colossal-AI 开源地址:https://github.com/hpcaitech/ColossalAI

参考链接:https://www.hpc-ai.tech/blog/70b-llama2-training

声明：本文内容整理自网络，观点仅代表原作者本人，投稿号仅提供信息发布服务。如有侵权，请联系管理员。

0 0

关于作者

投稿号

36.9K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

2千买到超值？Steam硬件调查数据：RTX 4060份额激增 4060Ti/4070卖不动

上一篇 2023年9月4日 18:12

瑞幸回应喝茅台联名咖啡能否开车若开车不建议饮用

下一篇 2023年9月4日 18:13

热点
哺乳期感染新冠可以母乳喂养吗?？专家解答
宝妈在哺乳期感染新冠，可以母乳喂养么？“阳康”之后，可以母乳喂养么？1月4日，陆军军医大学西南医院妇产科主任王丹解答了相关问题。上游新闻：哺乳期妈妈阳了，能不能母乳喂养？王丹：哺乳期的妈妈如果感染了新冠病毒，可以进行母乳喂养。…
投稿号
热点 2023年3月20日
1300
热点
才38岁，胰腺癌晚期！“癌中之王”该怎么防？
相比于心肝脾肺肾，胰腺这个器官好像没什么存在感，很多人可能连它在哪个位置都不知道。但平时一声不吭的胰腺，一出问题就很容易出大问题。很多人感到不适时，一检查就是胰腺癌晚期，让人猝不及防。 01 38岁！确诊胰腺癌晚期 38岁的张先…
投稿号
热点 2023年11月20日
1170
热点
网站推广的4大方法（怎么样进行网站推广）
怎么样进行网站推广（如何进行网站推广？）近几年来，互联网行业中常见的网站推广方式主要有以下三种：SEM营销、SEO优化、B2B营销，这些都是互联网上常见的网站推广营销模式，也是企业网站想要拓展消费群体必须运用的重要手段，同时还是…
投稿号
热点 2022年10月10日
1560
热点
员工贷款上千万养公司郑州育人教育集团：争取10月底还钱
近期，河南郑州育人教育集团让员工贷款养企业的事件引发热议，记者赶赴郑州展开调查。最近，计划报名某考试的李女士，突然发现自己的征信出现了不良记录，无法报考。一头雾水的她去银行询问才知道，自己以前帮工作单位借贷的款项出了问题。时间…
投稿号
热点 2023年9月9日
1120
热点
元旦小长假首日火车票明天开售
元旦小长假首日火车票将于16日开售，定好闹钟准备抢票啦！ 16日起火车票开售按照15天车票预售期规定，元旦小长假首日(12月30日)火车票将于12月16日开售，12月31日火车票于12月17日开售，元旦当天火车票于12月18日开…
投稿号
热点 2023年12月26日
1120
热点
日本气象厅解除全部海啸预警
观点网讯：1月2日，日本气象厅于当地时间上午10点（北京时间上午9点）解除了全部海啸预警。此次海啸预警的解除，对于日本沿海地区的居民和企业来说，无疑是一个重要的消息。据相关数据显示，本次海啸预警共持续了数小时，期间引发了广泛的关…
投稿号
热点 2024年1月8日
1010
热点
14年歌曲排行榜(14年歌曲排名)
2014流行歌曲《小苹果》《小苹果》是筷子兄弟演唱的歌曲，由王太利创作词曲，是电影《老男孩之猛龙过江》的宣传曲。2014年，该歌曲获得全美音乐奖“年度国际最佳流行音乐奖” 、Mnet亚洲音乐奖“中国最受欢迎歌曲奖”。《愿得一人…
投稿号
热点 2024年1月9日
1160
热点
刀郎花妖歌词是什么(刀郎花妖歌词是什么意思)
近期，刀郎推出了新专辑，给大家带来几首新歌，比如大家争议颇大的《罗刹海市》，另外《花妖》也是其中的歌曲之一。据介绍，这些都是通过山海经中的内容衍生的歌曲，歌曲和曲调都是亲自编写的，让歌曲更加富有深意，那么花妖歌词是什么呢？下面我们…
投稿号
热点 2023年7月31日
2950
热点
喜欢偶像剧的有福了！下半年6部现偶剧来临，你最期待哪一部？
经历了暑期古偶浪潮，9月开学季到来，不少偶像剧开始纷纷排播定档，这让不少喜欢看现偶剧的观众大呼期待。 1.张晚意、孙怡《我知道我爱你》《长相思》播出后，张晚意的剧集一个个都被抬了上来，而鹅今天也跟着放出了《我知道我爱你》的海报，…
投稿号
热点 2023年11月27日
1300
热点
东北虎遇见南方“小土豆”秒变“咪咪”
近日在黑龙江，一则关于游客与东北虎互动的新闻引发了广泛关注。据报道，一名游客在动物园内，通过铁网隔空对着东北虎的大脸疯狂撒雪，而老虎则表现得一脸无奈又安静。这场特殊的互动情景在社交媒体上传开，引发了网友们的热议。这名游客的举动让…
投稿号
热点 2024年1月2日
1240

发表回复

登录后才能评论

700 亿参数 LLaMA2 训练加速 195%，基础大模型最佳实践再升级

关于作者

热点推荐

发表回复