几千元训完中文版LLaMA2！Colossal-LLaMA-2把大模型门槛打下来了！

投稿号 • 2023年9月25日 18:13 • 热点 • 阅读 122

投稿号（tougaohao.com）9月25日消息:以前，从头预训练大模型被认为需要高达5000万美元的投资，这让很多开发者和中小企业望而却步。而Colossal-LLaMA-2的出现降低了大模型的门槛。

现在，仅需15小时和几千块钱的投入，就能够完成中文LLaMA2大模型的训练，数据规模达到85亿 tokens。这一方案的综合性能达到了开源社区同规模的SOTA模型水平，且完全开源，包括训练流程、代码以及权重。最重要的是，没有商业限制，可以将其应用于各种领域，实现低成本构建从头预训练的大模型。

那么，如何利用Colossal-AI系统和框架，在短时间内用很低的成本构建出表现优异的中文版本LLaMA2模型呢?

首先，通过扩充原英文词表，新增中文词汇，并利用原模型权重智能初始化，实现英文知识迁移。然后，利用严格的数据筛选流程构建高质量增量训练语料。

在训练策略上，设计了多阶段渐进式训练流程，以及均衡的数据分桶策略。最后，构建了完整的评估体系Colossaleval来全面评测模型效果。

在此流程的启发下，仅用15小时和几千元成本，就训出了中文版LLaMA2。该模型在各类中文任务上的表现已达到甚至超过同规模模型的先进水平。

所有训练代码和预训练权重均开源，可以直接应用到其他语言和领域，实现大模型低成本快速构建。背后是Colossal-AI提供的高效并行和异构内存支持等系统优化。该方案业已应用到多个行业领域，构建垂类大模型并取得良好效果。

声明：本文内容整理自网络，观点仅代表原作者本人，投稿号仅提供信息发布服务。如有侵权，请联系管理员。

0 0

关于作者

投稿号

36.9K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

对话千万GMV视频号玩家：商业化进入2.0时代，商家疯抢公域流量

上一篇 2023年9月25日 18:12

Canalys预测：2027年将有60%的个人电脑兼容AI功能出货量预计超过1.75亿台

下一篇 2023年9月25日 18:13

热点
UK是哪个国家的简称(uk是哪个国家的名称)
简要回答 UK是英国的简称，英国是一个高度发达的资本主义国家，欧洲四大经济体之一。很多国家都有自己的简称，比如说美国的简称是US，那么你知道UK是哪个国家的简称吗？今天我们就来说一说。详细内容 01 英国是一个高度发达的资本主…
投稿号
热点 2022年10月15日
1930
热点
家用粉碎机品牌(家用粉碎机排名)
垃圾处理器品牌十大排行榜爱适易：美国品牌，垃圾处理器的鼻祖。在质量方面拥有良好的口碑，产品定价高端，市场占有率高。贝克巴斯：始终保持在国内市场占有率优秀的位置，拥有多项专利技术。年厨余垃圾处理器十大品牌是：爱适易、美的、格莱达…
投稿号
热点 2023年12月23日
2060
热点
举重亚锦赛：杨秋霞包揽三金
中国举重协会消息，2022年巴林举重亚锦赛于北京时间12日晚展开第五个比赛日的争夺，中国选手杨秋霞包揽女子71公斤级抓举、挺举、总成绩三枚金牌，路德林获得男子81公斤级抓举和总成绩两枚金牌。杨秋霞在抓举比赛中三把100、103、…
投稿号
热点 2022年10月14日
1450
热点
喜剧电影排行榜前十名(十大喜剧电影排行榜前十名)
1龙虎少年队龙虎少年队是在2012年于美国上映的一部动作喜剧电影，两个年轻的警校学生去藏有毒品的校园寻找真相，真个故事桥段诙谐搞笑，是非常经典的一部喜剧片，也是全球十大必看喜剧电影2虎口脱险虎口脱险是一部；这部电影的票房比同期的神…
投稿号
热点 2023年3月26日
1390
热点
抖音爱自己的100种方式特效怎么触发(抖音爱自己的100种方式有哪些)
现在很多人喜欢涮抖音，抖音评论区的玩法也非常丰富，听说最近抖音评论区又出新花样了。大家可以通过特别的方式触发“爱自己的100种方式”特效，在页面会出现一张美好的卡片，卡片上的内容就是爱自己的一个小小的方式，那么这个特效怎么触发的呢…
投稿号
热点 2023年6月21日
1490
热点
介绍电子商务销售的１５种方法（电子商务销售的方法有哪些）
恭喜！你们都是作为一个电子商务商人建立起来的，并且兴奋地开始了你们的第一次销售。但是在你达到这一点之前，请阅读RepricerExpress的一些提示，了解如何实现这一点。提示:这可能比你想象的要快。 1.联系脸书好友不要在你朋…
投稿号
热点 2022年10月6日
1440
热点
左边绿右边红左右相遇起凉风绿的喜欢及时雨红(左边绿右边红左右相遇起凉风)
今天，我想和大家分享一些关于左边绿右边红左右相遇起凉风以及左边绿右边红左右相遇起凉风绿的喜欢及时雨红的问题。以下是小编对这个问题的总结。让我们看一看。左边绿右边红，左右相遇起凉风（打一字）。谜底：秋解释： “左边绿”，就是字…
投稿号
热点 2023年5月10日
1580
热点
史上最详细的18种微信推广方法（微信号怎么推广）
微信号怎么推广（史上最详细的18种微信推广方法）账号真实：及时更新照片，捆绑微博等，使账号具有真实性加入圈子：只加入人数在1万人以上的圈子动态互动：每30分钟刷新一次附近的人向对方最近的照片上点赞，打招呼每天连续认领金币添…
投稿号
热点 2022年10月8日
1480
热点
你不嫁我不嫁养老院里蹦恰恰是什么意思(你不嫁我不嫁养老院里蹦恰恰类似的句子)
如今在网络平台聊天大家基本上都会使用网络用语，最近一段时间“你不嫁我不嫁养老院里蹦恰恰”这个梗非常火爆，那么你不嫁我不嫁养老院里蹦恰恰是什么意思呢？下面小编就为大家带来了你不嫁我不嫁养老院里蹦恰恰梗意思介绍，感兴趣的小伙伴们一起来…
投稿号
热点 2023年6月25日
1370
热点
emba学费一览表2022（清华北大EMBA学费多少）
作为清华EMBA和北大EMBA，中欧EMBA考前培训专属机构——嘉禾博研教育，旗下名校EMBA培训基地，历经多年EMBA考前培训沉淀，积累了众多优秀的EMBA考生案例，不断优化EMBA课程培训体系，为全国的企业高层管理者和决策者提…
投稿号
热点 2022年10月22日
1800

发表回复

登录后才能评论

几千元训完中文版LLaMA2！Colossal-LLaMA-2把大模型门槛打下来了！

关于作者

热点推荐

发表回复