手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

美东时间10月2日,著名开源平台Stability.ai在官网宣布,推出开源大语言模型StableLM-3B-4E1T。(开源地址:https://huggingface.co/stabilityai/stablelm-3b-4e1t)

据悉,Stable LM3B是一款主要面向手机、笔记本等移动设备的基础大语言模型,在保证性能的前提下,极大降低了算力资源的要求。

Stable LM3B支持生成文本/代码、总结摘要、数据微调、常识推理、解答数学题等功能,全局上下文长度为4096。(简称“Stable LM3B”)

手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

随着ChatGPT的火爆出圈,全球掀起了轰轰烈烈的“大模型开发热潮”。但多数模型皆需要耗费大量算力资源才能预训练、微调,同时对开发的生成式AI应用的运行环境也有很高的要求。高通更是发布了专门针对移动端的生成式AI芯片,以解决算力问题。

Stability.ai希望通过开源Stable LM3B,帮助那些没有庞大算力资源的开发者,也能打造小巧精悍的生成式AI产品,可以安全、稳定地在移动端运行。

Stable LM3B训练数据集

虽然该模型只有30亿参数,却使用了一个包含文本、代码、维基百科、ArXiv、图书、C4等多种数据的1万亿tokens庞大的训练数据集。

该数据集由多个开源的大规模数据集经过筛选混合而成,包括Falcon RefinedWeb、RedPajama-Data、The Pile以及 StarCoder等。

这使得Stable LM3B以更少的资源,性能却超越同等规模模型,甚至比一些70亿、100亿参数的大模型更强。

手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

Stable LM3B训练流程

Stable LM3B以bfloat16精度训练972k起步,全局上下文长度为4096,而不是像 StableLM-Alpha v2那样从2048到4096进行多阶段提升。

Stability.ai使用了AdamW进行性能优化,并在前4800步使用线性预热,然后采用余弦衰减计划将学习率降至峰值的4%。

早期的不稳定性归因于在高学习率区域的长期停留。由于模型相对较小,没有采用dropout。

手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

在训练过程中,Stability.ai评估自然语言基准,并在学习率衰减计划的尾声阶段,观察到训练带来的稳步提升。基于这个原因,开发人员决定将学习率线性降低至0,类似于Zhai等人的做法,以期获得更好的性能。

此外,在预训练的初始阶段依赖于 flash-attention API及其开箱即用的三角因果屏蔽支持。这迫使模型以类似的方式处理打包序列中的不同文档。

在冷却阶段,Stability.ai在并发实验中凭经验观察到样本质量提高(即:减少重复)后,为所有打包序列重置 EOD 标记处的位置ID和注意掩码。

手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

硬件方面,StableLM-3B是在Stability AI的算力集群上训练的。该集群包含256个NVIDIA A10040GB显卡。训练开始于2023年8月23日,大约消耗了30天完成。

性能测试方面,StableLM-3B在零样本的lm-evaluation-harness评估框架中,进行了性能测试。结果显示,性能完全不输70亿参数的模型,甚至比一些100亿参数的更强。

手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

投稿号的头像投稿号注册会员
上一篇 2023年10月3日
下一篇 2023年10月3日

热点推荐

  • 特斯拉第500万台汽车下线:不到40秒就能造出一台车

    快科技9月17日消息,今天上午,特斯拉官方表示,本周,特斯拉第500万台汽车已经下线。感谢特斯拉车主一直以来的支持。 据了解,特斯拉从400万台到500万台,仅仅用了6个月的时间,平均每天能够生产出5555辆特斯拉汽车。为何特斯拉…

    2023年9月17日
    350
  • 不止iPhone 15:新AirPods也将采用USB-C接口

    快科技8月30日消息,根据MacRumors消息,在苹果预计于9月13日召开的Wonderlust”主题活动上,除了iPhone 15系列手机外,还将带来新的AirPods。 这款新的AirPods将和新的iPhone 15系列一…

    2023年8月30日
    410
  • 服装店新手开店指南(个人开服装店流程)

    每个开服装店的孩子最开始都是一颗尘埃,因为有一个顾客接受了你,对你说了一句你家的衣服不错,于是乎尘埃有了力量,他就变成了一颗小小的石头;当这个客户对你说“你家的款真好看”时,你又有了力量,你成为了一个小山包、小山丘;当客户买了你的…

    2022年10月12日
    980
  • 曼谷百丽宫枪击案凶手成绩优异但沉迷游戏

    在枪击事件发生后,曼谷市区的一些旅游区域出现了一些安全问题,给本应愉快旅行的游客带来了不小的恐惧和伤害。这次事件的加害者竟然是一名未成年人,让人感到十分惊讶。 这个14岁的男孩来自一个优越的家庭,他的父亲是一名大学教师,受过良好的…

    2023年10月7日
    380
  • 川的结构是什么(川的结构)

    今天,我想和大家分享一些关于川的结构以及川的结构是什么的问题。以下是小编对这个问题的总结。让我们看一看。 川的笔画 川的笔顺为:1.撇 ノ2.竖 丨3.竖  丨   。如下图所示: 川字的书则兄写技巧: “川”字先“竖”写,后面略…

    2023年5月11日
    540
  • 轻客销量榜(轻客汽车销量排名)

    中国汽车销量排名上汽大通maxus汽车 1、今年1-6月的销量排行榜上,上汽大通的表现还是比较亮眼的,总销量接近10万辆,同比大增23%,这样的数据放在国内市场来看还是很出色的。当然,评判一个品牌是否可靠、优质,还得结合海外表现一…

    2023年11月2日
    350
  • 牛犊被咬死现场留巨大爪痕 大型猫科具体多大型就不知道了

    6月29日晚上,四平村村民王先生在家中听到了牛圈里传来的惊恐的叫声。他赶紧跑出去查看,却发现了令人心碎的一幕:一头刚出生不久的小牛犊躺在地上,颈部有明显的咬伤,已经死亡。 王先生说:“我看见小牛犊脖子上有两个洞,像是被什么东西咬住…

    2023年7月4日
    450
  • 中国疫情投入20万个亿是真的吗(中国疫情投入了多少钱)

    新冠疫情持续了三年时间,三年以来,无论是对感染者的治疗,还是新冠疫苗的接种,我国都是实施的免费政策。除了中国,几乎没有哪个国家敢为感染患者买单,大部分国家的新冠感染者都是要自费治疗的,可以说国家为抗疫作出的投入是非常高的。很多人好…

    2022年12月9日
    680
  • 网络限速怎么办?一招快速解决_网络限速

    大家好,请问,网络限速是什么意思呀? 1、如果就网络速度来说,网络限速是指网络拥有的最高传输速度。如果是在多人使用的公用网络的情况下,网络限速是指网络分配给你的最高速度。如果是你用软件下载东西的情况下,网络限速是指你设置的最高传输…

    2023年7月2日
    630
  • 家长对孩子的评价语怎么写10字(家长对孩子的评价)

    大家好,今天给各位分享家长对孩子的评价的一些知识,其中也会对家长对孩子的评价语怎么写10字进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧! 家长对自己孩子的评价怎么写? 家长写自己孩子…

    2023年4月22日
    540