NVIDIA Blackwell B200 – новый самый мощный чип в мире: характеристики и сравнения
22.03.24
Компания NVIDIA представила на конференции GTC 2024 новое поколение ИИ-ускорителей на графических процессорах с архитектурой Blackwell. Согласно заявлениям производителя, эти ускорители позволят создавать ещё более крупные нейронные сети, включая языковые модели с триллионами параметров, и при этом будут до 25 раз более энергоэффективными и экономичными по сравнению с предыдущим поколением Hopper.
Графический процессор NVIDIA B200 был заявлен компанией как самый мощный чип в мире. В вычислениях с плавающей запятой одинарной и двойной точности новый GPU обеспечивает производительность до 20 и 10 петафлопс соответственно. Он состоит из двух кристаллов, изготовленных по специальной версии 4-нм техпроцесса TSMC 4NP, и объединенных 2,5D-упаковкой CoWoS-L. Это первый GPU от Nvidia с чиплетной компоновкой. Кристаллы соединены шиной NV-HBI с пропускной способностью 10 Тбайт/с и работают как единый GPU. Общее количество транзисторов в новом продукте составляет 208 млрд.
По сторонам от кристаллов GPU расположились восемь стеков памяти HBM3E общим объёмом 192 ГБ. Её пропускная способность достигает 8 Тбайт/с. А для объединения нескольких ускорителей Blackwell в одной системе новый GPU получил поддержку интерфейса NVLink пятого поколения, которая обеспечивает пропускную способность до 1,8 Тбайт/с в обоих направлениях. С помощью данного интерфейса (коммутатор NVSwitch 7.2T) в одну связку можно объединить до 576 GPU.
Одними из главных источников более высокой производительности B200 стали новые тензорные ядра и второе поколение механизма Transformer Engine. Последний научился более тонко подбирать необходимую точность вычислений для тех или иных задач, что влияет и на скорость обучения и работы нейросетей, и на максимальный объём поддерживаемых LLM. Теперь Nvidia предлагает тренировку ИИ в формате FP8, а для запуска обученных нейросетей хватит и FP4. Но отметим, что Blackwell поддерживает работу с самыми разными форматами, включая FP4, FP6, FP8, INT8, BF16, FP16, TF32 и FP64. И во всех случаях кроме последнего есть поддержка разреженных вычислений.
Флагманским ускорителем на новой архитектуре станет NVIDIA Grace Blackwell Superchip, в котором сочетается пара графических процессоров B200 и центральный Arm-процессор NVIDIA Grace с 72 ядрами Neoverse V2. Данный ускоритель шириной в половину серверной стойки обладает TDP до 2,7 кВт. Производительность в операциях FP4 достигает 40 Пфлопс, тогда как в операциях FP8/FP6/INT8 новый GB200 способен обеспечить 10 Пфлопс.
Как отмечает сама NVIDIA, новинка Blackwell B200 обеспечивает 30-кратный прирост производительности по сравнению с NVIDIA H100 для рабочих нагрузок, связанных с большими языковыми моделями, а она до 25 раз более экономична и энергетически эффективна.
Первые устройства с NVIDIA B200
NVIDIA представила систему GB200 NVL72 — фактически это серверная стойка, которая объединяет в себе 36 Grace Blackwell Superchip и пару коммутаторов NVSwitch 7.2T.
Таким образом данная система включает в себя 72 графических процессора B200 Blackwell и 36 центральных процессоров Grace, соединенных NVLink пятого поколения. На систему приходится 13,5 ТБпамяти HBM3E с общей пропускной способностью до 576 Тбайт/с, а общий объём оперативной памяти достигает 30 Тбайт.
Платформа GB200 NVL72 работает как единый GPU с ИИ-производительностью 1,4 эксафлопс (FP4) и 720 Пфлопс (FP8). Эта система станет строительным блоком для новейшего суперкомпьютера Nvidia DGX SuperPOD.
Для создания наиболее масштабных ИИ-систем, включающих от 10 тыс. до 100 тыс. ускорителей GB200 в рамках одного дата-центра, компания Nvidia предлагает объединять их в кластеры с помощью сетевых интерфейсов Nvidia Quantum-X800 InfiniBand и Spectrum-X800 Ethernet.
Свои системы на базе NVIDIA B200 в скором времени представят многие производители, включая Aivres, ASRock Rack, ASUS, Eviden, Foxconn, Gigabyte, Inventec, Pegatron, QCT, Wistron, Wiwynn и ZT Systems.
Серверные системы
NVIDIA представила серверные системы HGX B100, HGX B200 и DGX B200. Все они предлагают по восемь ускорителей Blackwell, связанных между собой NVLink 5. Системы HGX B100 и HGX B200 не имеют собственного CPU, а между собой различаются только энергопотреблением и как следствие мощностью.
HGX B100 ограничен TDP в 700 Вт и обеспечивает производительность до 112 и 56 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно. В свою очередь, HGX B200 имеет TDP в 1000 Вт и предлагает до 144 и 72 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно.
Наконец, DGX B200 копирует HGX B200 в плане производительности, но является полностью готовой системой с парой центральных процессоров Intel Xeon Emerald Rapids. По словам NVIDIA, DGX B200 до 15 раз быстрее в задачах запуска уже обученных «триллионных» моделей по сравнению с предшественником.
Не пропустите интересное!
Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!
Планшет Samsung Galaxy Tab S10 Ultra (SM-X926B): многое
Новый планшет Samsung Galaxy Tab S10 Ultra получил большой 14,6”-экран, топовый процессор Mediatek Dimensity 9300 и стилус S Pen. Попробуем разобраться для чего такой девайс
Xiaomi в 2025 году представит свой 3-нм чип для конкуренции с Qualcomm и MediaTek процессор смартфон
Предполагается, что первый 3-нм чип Xiaomi дебютирует в одном из флагманских смартфонов, возможно, в Xiaomi 16
ИИ Google Gemini получил поддержку голосовых команд в Spotify для поиска и воспроизведения музыки Google Spotify искусственный интеллект
Google совершенствует возможности голосового помощника Gemini, добавляя поддержку Spotify. Теперь пользователи могут искать, воспроизводить и просматривать музыку с помощью голосовых команд