坦牛手游网

新闻

栏目

16384块N卡训练4050亿参数大模型:3小时报错一次

笔名 2024-07-29 16:00:30

现在的AI年夜模子范围愈来愈宏大,动辄成千盈百亿参数,锻炼进程不只需求数万以至十多少万块GPU减速卡,堕落的概率也愈来愈下。Meta便表露了一份惊人的陈述。

Meta正在陈述外表露,为了锻炼本人的Llama 3 4050亿参数年夜模子,运用了包括16384块NVIDIA H100 80GB GPU的散群,一同花了45地,时期竟然呈现了419次不测报错,均匀每一3个小时便一次,而一半的毛病皆战GPU及其自戴的HBM3内存相关。

16384块N卡训练4050亿参数大模型:3小时报错一次

要晓得,年夜模子锻炼的任务质非常宏大,并且需求下度共步,一次毛病便能够招致全部锻炼任务必需重新再去。

陈述显现,为期45地的预锻炼阶段外,统共呈现了466次任务中缀,此中47次是方案内的主动保护,419次是不测的,且年夜局部皆去自软件成绩,GPU又是至多的,占了此中的58.7%。

详细去道,148次即30.1%的不测中缀去自各类GPU生效(包罗NVLink总线),72次即17.2%去自HBM3内存生效——究竟结果,700W的罪耗太冷了。

16384块N卡训练4050亿参数大模型:3小时报错一次

借有19次去自GPU SRAM,17次去自GPU处置器,6次去自GPU寂静数据毛病,6次去自GPU集冷战传感器。

其余毛病去自硬件bug、网线战网卡等等方方面面。风趣的是,CPU毛病只呈现了2次。

借佳,Llama 3团队十分给力,正在那么下的堕落概率高,仍然保持了超越90%的无效锻炼工夫,并且只要三次GPU报错需求少量野生干涉,其余皆被主动化办理改正了。

免责申明:文外图文均去自收集,若有侵权请联络简略,坦牛脚游网公布此文仅为通报疑息,没有代表18183认共其观念或者证明其描绘。

相关文章

最新游戏

猜你喜欢

  • 报错

  • 模型

  • 参数

  • 小时

  • 手游开服

  • 新游开测

  • 绝世天尊

    角色扮演 | 306.05MB | 下载1536次

    新服:灭运

  • 大秦风云录

    角色扮演 | 224MB | 下载1193次

    新服:天外

  • 英雄血战

    角色扮演 | 96MB | 下载1742次

    新服:力转乾坤

  • 盛世明朝

    策略经营 | 114.87MB | 下载1970次

    新服:志安远村