NVIDIA представила самый мощный чип в мире — Blackwell B200


GPU Blackwell представляет собой гигантский графический процессор для ИИ. О новинке рассказали в рамках конференции GTC 2024.

По словам производителя, ИИ-ускорители позволят создавать ещё более крупные нейросети, в том числе работать с большими языковыми моделями (LLM) с триллионами параметров.

Blackwell содержит 208 млрд транзисторов. Для сравнения, GH100 имеет 80 млрд транзисторов.

«Генеративный ИИ — это определяющая технология нашего времени. Графические процессоры Blackwell — это двигатель для новой промышленной революции», — подчеркнул глава Nvidia Дженсен Хуанг.

Новинка обеспечивает 30-кратный прирост производительности по сравнению с Nvidia H100 для рабочих нагрузок, связанных с большими языковыми моделями, а она до 25 раз более экономична и энергетически эффективна. Архитектура GPU Blackwell получила название в честь математика Дэвида Блэквелла.

Технические характеристики новинок

Новый GPU в архитектурах FP4 и FP8 обеспечивает производительность до 20 и 10 Петафлопс соответственно. GPU представляет собой инновационное решение, состоящее из двух кристаллов, изготовленных по специальной версии 4-нанометрового техпроцесса TSMC 4NP и объединенных 2,5D-упаковкой CoWoS-L. Это первый GPU от Nvidia, использующий чиплетную компоновку. Кристаллы соединены шиной NV-HBI с пропускной способностью 10 Терабайт в секунду и функционируют как единое целое.

Вокруг кристаллов GPU размещены восемь стеков памяти HBM3e общим объемом 192 гигабайта. Пропускная способность этой памяти составляет 8 Терабайт в секунду. Для интеграции нескольких ускорителей Blackwell в единой системе, новый GPU получил поддержку интерфейса NVLink пятого поколения, который обеспечивает пропускную способность до 1,8 Терабайт в секунду в обе стороны. С помощью этого интерфейса (через коммутатор NVSwitch 7.2T) можно объединить до 576 GPU в одну связку.

Одними из ключевых факторов, способствующих увеличению производительности B200, стали новые тензорные ядра и второе поколение механизма Transformer Engine. Этот механизм научился более точно определять необходимую точность вычислений для различных задач, что положительно сказывается на скорости обучения и работе нейронных сетей, а также на максимальном объеме поддерживаемых LLM. Теперь Nvidia предлагает тренировку искусственного интеллекта в формате FP8, а для запуска обученных нейронных сетей достаточно использовать FP4.

Флагманским ускорителем на базе новой архитектуры станет Nvidia Grace Blackwell Superchip, который объединяет пару графических процессоров B200 с центральным Arm-процессором Nvidia Grace, оснащенным 72 ядрами Neoverse V2. Этот ускоритель, занимающий половину серверной стойки, имеет TDP до 2,7 киловатт. Производительность в операциях FP4 достигает 40 Петафлопс, а в операциях FP8/FP6/INT8 новый GB200 способен обеспечить 10 Петафлопс.

Nvidia также представила систему GB200 NVL72 — это фактически серверная стойка, объединяющая 36 Grace Blackwell Superchip и пару коммутаторов NVSwitch 7.2T. Таким образом, система включает в себя 72 графических процессора B200 Blackwell и 36 центральных процессоров Grace, соединенных через NVLink пятого поколения. Общий объем памяти HBM3e составляет 13,5 Терабайт с общей пропускной способностью до 576 Терабайт в секунду, а общий объем оперативной памяти достигает 30 Терабайт.

Платформа GB200 NVL72 функционирует как единый GPU с производительностью искусственного интеллекта 1,4 эксафлопс (FP4) и 720 Петафлопс (FP8). Эта система станет основой для новейшего суперкомпьютера Nvidia DGX SuperPOD.

Кроме того, Nvidia представила серверные системы HGX B100, HGX B200 и DGX B200. Все они содержат по восемь ускорителей Blackwell, соединенных между собой через NVLink 5. Системы HGX B100 и HGX B200 не имеют собственного центрального процессора (CPU) и отличаются только энергопотреблением и, следовательно, мощностью. HGX B100 ограничивается TDP 700 Вт и достигает производительности до 112 и 56 Петафлопс в операциях FP4 и FP8/FP6/INT8 соответственно. В свою очередь, HGX B200 имеет TDP 1000 Вт и обеспечивает производительность до 144 и 72 Петафлопс в операциях FP4 и FP8/FP6/INT8 соответственно.