NVIDIA Blackwell B200 – новий найпотужніший чіп у світі: характеристики та порівняння
22.03.24
Компанія NVIDIA представила на конференції GTC 2024 нове покоління ІІ-прискорювачів на графічних процесорах із архітектурою Blackwell. Згідно заяв виробника, ці прискорювачі дозволять створювати ще більші нейронні мережі, включаючи мовні моделі з трильйонами параметрів, і при цьому будуть до 25 разів більш енергоефективними та економічними в порівнянні з попереднім поколінням Hopper.
Графічний процесор NVIDIA B200 був заявлений компанією як найпотужніший чіп у світі. У обчисленнях з плаваючою комою одинарної та подвійної точності новий GPU забезпечує продуктивність до 20 та 10 петафлопс відповідно. Він складається з двох кристалів, виготовлених за спеціальною версією 4-нм техпроцесу TSMC 4NP, та об’єднаних 2,5D-упаковкою CoWoS-L. Це перший GPU від Nvidia з чіплетним компонуванням. Кристали з’єднані шиною NV-HBI з пропускною здатністю 10 Тбайт/с та працюють як єдиний GPU. Загальна кількість транзисторів у новому продукті становить 208 мільярдів.
З боків від кристалів GPU розташувалися вісім стеків пам’яті HBM3E загальним обсягом 192 ГБ. Її пропускна здатність сягає 8 Тбайт/с. А для поєднання кількох прискорювачів Blackwell в одній системі новий GPU отримав підтримку інтерфейсу NVLink п’ятого покоління, що забезпечує пропускну здатність до 1,8 Тбайт/с в обох напрямках. За допомогою цього інтерфейсу (коммутатор NVSwitch 7.2T) в одну зв’язку можна об’єднати до 576 GPU.
Однією з головних джерел вищої продуктивності B200 стали нові тензорні ядра та друге покоління механізму Transformer Engine. Останній навчився більш тонко підбирати необхідну точність обчислень тих чи інших завдань, що впливає і швидкість навчання і роботи нейромереж, і максимальний обсяг підтримуваних LLM. Тепер Nvidia пропонує тренування ІІ у форматі FP8, а для запуску навчених нейромереж вистачить і FP4. Але відзначимо, що Blackwell підтримує роботу з різними форматами, включаючи FP4, FP6, FP8, INT8, BF16, FP16, TF32 і FP64. І в усіх випадках, крім останнього, є підтримка розріджених обчислень.
Флагманським прискорювачем на новій архітектурі стане NVIDIA Grace Blackwell Superchip, в якому поєднується пара графічних процесорів B200 та центральний Arm-процесор NVIDIA Grace із 72 ядрами Neoverse V2. Даний прискорювач шириною половину серверної стійки має TDP до 2,7 кВт. Продуктивність в операціях FP4 досягає 40 Пфлопс, тоді як в операціях FP8/FP6/INT8 новий GB200 здатний забезпечити 10 Пфлопс.
Як зазначає сама NVIDIA, новинка Blackwell B200 забезпечує 30-кратний приріст продуктивності в порівнянні з NVIDIA H100 для робочих навантажень, пов’язаних з великими мовними моделями, а вона до 25 разів більш економічна та енергетично ефективна.
Перші пристрої з NVIDIA B200
NVIDIA представила систему GB200 NVL72 – фактично це серверна стійка, яка поєднує в собі 36 Grace Blackwell Superchip і пару комутаторів NVSwitch 7.2T.
Таким чином дана система включає 72 графічних процесора B200 Blackwell і 36 центральних процесорів Grace, з’єднаних NVLink п’ятого покоління. На систему припадає 13,5 ТБ пам’яті HBM3E із загальною пропускною здатністю до 576 Тбайт/с, а загальний обсяг оперативної пам’яті сягає 30 Тбайт.
Платформа GB200 NVL72 працює як єдиний GPU з ІІ-продуктивністю 1,4 ексафлопс (FP4) та 720 Пфлопс (FP8). Ця система стане будівельним блоком для нового суперкомп’ютера Nvidia DGX SuperPOD.
Для створення найбільш масштабних ІІ-систем, що включають від 10 до 100 тис. прискорювачів GB200 в рамках одного дата-центру, компанія Nvidia пропонує об’єднувати їх у кластери за допомогою мережевих інтерфейсів Nvidia Quantum-X800 InfiniBand і Spectrum-X800 Ethernet.
Свої системи на базі NVIDIA B200 незабаром представлять багато виробників, включаючи Aivres, ASRock Rack, ASUS, Eviden, Foxconn, Gigabyte, Inventec, Pegatron, QCT, Wistron, Wiwynn і ZT Systems.
Серверні системи
NVIDIA представила серверні системи HGX B100, HGX B200 та DGX B200. Всі вони пропонують по вісім прискорювачів Blackwell, пов’язаних між собою NVLink 5. Системи HGX B100 та HGX B200 не мають власного CPU, а між собою відрізняються лише енергоспоживанням і як наслідок потужністю.
HGX B100 обмежений TDP в 700 Вт і забезпечує продуктивність до 112 та 56 Пфлопс в операціях FP4 та FP8/FP6/INT8 відповідно. У свою чергу, HGX B200 має TDP в 1000 Вт і пропонує до 144 та 72 Пфлопс в операціях FP4 та FP8/FP6/INT8 відповідно.
Нарешті, DGX B200 копіює HGX B200 у плані продуктивності, але є повністю готовою системою з кількома центральними процесорами Intel Xeon Emerald Rapids. За словами NVIDIA, DGX B200 до 15 разів швидше у завданнях запуску вже навчених «трильйонних» моделей порівняно із попередником.
Не пропустіть цікаве!
Підписуйтесь на наші канали та читайте анонси хай-тек новин, тестів та оглядів у зручному форматі!
Огляд автомобільного відеореєстратора Kawa Mini 3: розмір неважливий
Kawa Mini 3 цікавий насамперед тим, що має дуже маленькі розміри, пропонуючи зйомку відео в 2К. Подивимося на що він годиться
Ігрові ноутбуки Asus ROG серій Strix, Flow та Zephyrus на CES 2025 Asus CES Nvidia ноутбук
Компанія Asus анонсувала нову лінійку геймерських ноутбуків, оснащених передовими процесорами Intel, AMD та відеокартами NVIDIA GeForce RTX 50 серії з підтримкою DLSS 4
CES 2025: нові монітори Samsung Odyssey OLED підтримують частоту оновлення до 500 Гц OLED Samsung монiтор
Samsung анонсувала нову серію моніторів Odyssey OLED напередодні CES 2025. Лінійка включає моделі Odyssey OLED G6, Odyssey OLED G8 та інноваційний Odyssey 3D.