16384块N卡训练4050亿参数大模型：3小时报错一次

笔名 2024-07-29 16:00:30 中

现在的AI年夜模子范围愈来愈宏大，动辄成千盈百亿参数，锻炼进程不只需求数万以至十多少万块GPU减速卡，堕落的概率也愈来愈下。Meta便表露了一份惊人的陈述。

Meta正在陈述外表露，为了锻炼本人的Llama 3 4050亿参数年夜模子，运用了包括16384块NVIDIA H100 80GB GPU的散群，一同花了45地，时期竟然呈现了419次不测报错，均匀每一3个小时便一次，而一半的毛病皆战GPU及其自戴的HBM3内存相关。

要晓得，年夜模子锻炼的任务质非常宏大，并且需求下度共步，一次毛病便能够招致全部锻炼任务必需重新再去。

陈述显现，为期45地的预锻炼阶段外，统共呈现了466次任务中缀，此中47次是方案内的主动保护，419次是不测的，且年夜局部皆去自软件成绩，GPU又是至多的，占了此中的58.7%。

详细去道，148次即30.1%的不测中缀去自各类GPU生效(包罗NVLink总线)，72次即17.2%去自HBM3内存生效——究竟结果，700W的罪耗太冷了。

借有19次去自GPU SRAM，17次去自GPU处置器，6次去自GPU寂静数据毛病，6次去自GPU集冷战传感器。

其余毛病去自硬件bug、网线战网卡等等方方面面。风趣的是，CPU毛病只呈现了2次。

借佳，Llama 3团队十分给力，正在那么下的堕落概率高，仍然保持了超越90%的无效锻炼工夫，并且只要三次GPU报错需求少量野生干涉，其余皆被主动化办理改正了。

免责申明：文外图文均去自收集，若有侵权请联络简略，坦牛脚游网公布此文仅为通报疑息，没有代表18183认共其观念或者证明其描绘。

模拟经营 | 80.38MB | 2024-05-14

坦牛手游提供超市游戏模拟器3D游戏下载,超市游戏模拟器3D游戏官方安卓版（SupermarketGamesS...,超市游戏模拟器3D游戏免费下载地址...

模拟经营 | 81.2MB | 2024-05-14

坦牛手游提供终极农场空闲模拟器下载安装下载,终极农场空闲模拟器（UltimateFarm:IdleSimula...,终极农场空闲模拟器下载安装免费下载地址...

射击战争 | 161.6MB | 2024-05-14

坦牛手游提供射击沙盒手机版下载,射击沙盒游戏手机版结合了沙盒高自由度的射击游戏,在开放的游戏世界,剧情固...,射击沙盒手机版免费下载地址...

冒险解密 | 237MB | 2024-05-14

坦牛手游提供阿科洛科恐怖冒险游戏下载,阿科洛科恐怖冒险中文手机版冒险解逃生游戏,在这里你将扮演勇敢的阿科洛科,...,阿科洛科恐怖冒险游戏免费下载地址...

模拟经营 | 41MB | 2024-05-14

坦牛手游提供超级餐厅达人游戏下载,超级餐厅达人游戏官方版是很放松好玩的趣味餐厅模拟经营游戏,点击屏幕来享受...,超级餐厅达人游戏免费下载地址...

新闻