模型移动第8关攻略组合模型38关攻略
明旻发自庙非弯
量子比特公数奇titier
我必须承认,为了让更多的人使用更大的模型
模型还不够开放,人们开始制作他们自己的免费开源版本
比如说,他最近控制了整个网络。元数据打开Opt-175B
它被复制成一个每个人都可以使用的大模型
有些人认为这个模型太大了
因此,可以采用异构内存、并行计算等方法来加快大型模型的培训并降低成本
比如说,最近的开源colossal-ai项目,英格玛3090只对付180亿美元的大型模型
两天来又有一波海啸
“黑客脸社区”模型的无缝支持旨在为低成本的大型模型添加用于培训和设置的代码行
你知道吗,Hugging Face提供了超过5万个最受欢迎的AI库应用程序模型
而colossal-ai波使开放式模型的教育设置更加有用
教育的结果也有所改善
使用Microsoft提供的单一GPU,透过colossal-ai执行40%的加速自动最佳化策略
而PyTorch传统的深度学习框架已经不再使用单一GPU大小的模型
对于8个GPU并行培训,只需在启动命令中添加-NPROS8即可
65432 + 4R
你可以说这一波捕获了个人AI玩家需要考虑的成本、效率和实际问题
你不需要改变代码的逻辑
例如,让我们解释一下如何使用colossal-ai的新功能
OPT称为开放式预训练变压器
由Meta AI发布并标记为GPT-3。最大参数可能达到170亿
其最大的特点并没有暴露GPT-3模型的重量,但OPT是开源的和网络
这样每个开发人员都可以开发个性化的下游任务
下面的示例是基于OPT结果语言模型的微调控制
两者是分阶段的
新增启动设定档是根据您要执行的工作新增设定档
例如,在GPU中,将配置元素添加到配置文件,而无需更改代码的学习逻辑
例如,张量_placement_policy指定异构教育策略的参数可以是CUDA、CPU和auto
每种策略都有不同的优势和适应性
CUDA:所有模型参数都放在GPU上,您可以继续接受传统场景的训练
处理器:将所有建模参数都放在内存中,CPU只放在内存中,即GPU当前加入的计算量
自动:根据实时内存信息,GPU可以最大限度地利用内存中的GPU
对于一般使用者,最容易使用自动原则
通过动态选择最佳的异构策略(使用colossal-ai),最大限度地提高计算效率
fromcolossal .零. shard_utils导入检查器零位= DIC(model _ config = DIC)(检查器_ stemple _ policy = & # 34)自动和# 34)、optimizer _ config = DIC(GPU _ margin _ mem _ ratio = 0.8)第二步,配置文件已准备就绪
首先,使用配置文件开始一行代码
colossal-ai自动启动分布式环境,即相关的p30
colossal ai.launch _ from _ torch(配置= & # 39)。/confirm/colossel ai _ null . py和# 39)然后照常定义数据集、模型、优化器、丢失函数等
例如,如果您直接使用本地PyTorch定义模型,则只需在您的零上下文代码中插入一个解析器即可
此处提供的视频卡模型和预培训权重用于调整Wikitext数据集
zelincontext(target _ device = torch . cuda . current _ device()、shald _ strategy = shard _ param = true:model = opt kulm . from _ pre-training(和# 39)Facebook/opt-1.3d和39 config=config)随后再培训配置文件中定义的异构内存属性
引擎、train_dataLoader、eval_dataLoader、lr _ scheduler = colossel . optimizer = optimizer条件= train _ data loader = train _ data loader test _ data loader = eval _ data loader lr _ scheduler = lr _ scheduler(lr _ scheduler)或允许用户执行这些愚蠢的操作
colossal-ai系统的高性能异构内存管理子系统的核心部分
收集计算所需的信息后,处理器和GPU内存将动态使用
前几个步骤的热身活动是在动态计算图形中保留PyTorch内存消耗信息
加热前的记忆体使用记录30
号
内建记忆体管理程式会将状态资讯(HOLD、compute、FREE等)标示在每一个资讯上。(请注意)
然后,根据动态查询的内存使用情况,动态转换数量状态
在有限硬件条件下,最大限度地提高模型容量和培训速度
业界的通用方法是零,但CPU使用的是异构内存方法,因此会导致系统崩溃、不必要的通信量和其他问题
此外,它还使用动态异构处理器的GPU来扩展存储条的添加方式
比高端显卡便宜
号
现在,使用colossal-ai方法,rtx 2060 6gb的标准游戏本能训练15亿个参数模型,RTX 3090 24GB的主机直接与180亿参数的大型模型进行比较,tesla v100 32gb赢得了24亿参数
colossal-ai通过分布式并行方法最大限度地提高学习速度
建议使用平行资料,平行水流
虽然这是一个复杂的方法,但开始是愚蠢的
复杂的子逻辑不需要像其他系统和框架那样黑客攻击代码
平行= DIC(管道= 2,张量= DIC(模式= & # 39)2.5d和39,深度= 1,4))colossel-ai还能做什么?自从开源以来,colossel-ai、GitHub和Papers都是世界上最棒的,而且在技术上也不怎么出名
除了上面显示的单个GPU培训之外,colossal-ai还可使现有系统上的威震天-LM性能翻倍,并将资源利用率降至十分之一以下
相比之下,像GPT-3这样的大型人工智能模型可节省数百万美元
号
colossal-ai自动驾驶仪、云端运算、零售、医疗、晶片,以及其他业界的知名供应商
他们还非常重视开源社区的建设,中文教育和开源社区论坛30
在我知道之前,他有一个粉丝的消息,我想做一些模型
这些更新已经完成了
号
你认为我们还需要做些什么
请在“评语”部分留言
门户项目地址:https://github . com/HPC aitech/colol
参考资料:[1]https://medium . com/@杨you _ Berkeley/colossel-ai seal-可接受的大型模型-带-hugg-face-4a 8810d[2]https:/选择ARX v . org/ABS/220924 v2[3]https://arxiv . org/ABS/2205.11487[4]https
-他的避难所?-他的避难所
量子位qb iti符号
首先,请关注我们,了解高科技是如何运作的