NVIDIA Blackwell B200 – новий найпотужніший чіп у світі: характеристики та порівняння
22.03.24
Компанія NVIDIA представила на конференції GTC 2024 нове покоління ІІ-прискорювачів на графічних процесорах із архітектурою Blackwell. Згідно заяв виробника, ці прискорювачі дозволять створювати ще більші нейронні мережі, включаючи мовні моделі з трильйонами параметрів, і при цьому будуть до 25 разів більш енергоефективними та економічними в порівнянні з попереднім поколінням Hopper.
Графічний процесор NVIDIA B200 був заявлений компанією як найпотужніший чіп у світі. У обчисленнях з плаваючою комою одинарної та подвійної точності новий GPU забезпечує продуктивність до 20 та 10 петафлопс відповідно. Він складається з двох кристалів, виготовлених за спеціальною версією 4-нм техпроцесу TSMC 4NP, та об’єднаних 2,5D-упаковкою CoWoS-L. Це перший GPU від Nvidia з чіплетним компонуванням. Кристали з’єднані шиною NV-HBI з пропускною здатністю 10 Тбайт/с та працюють як єдиний GPU. Загальна кількість транзисторів у новому продукті становить 208 мільярдів.
З боків від кристалів GPU розташувалися вісім стеків пам’яті HBM3E загальним обсягом 192 ГБ. Її пропускна здатність сягає 8 Тбайт/с. А для поєднання кількох прискорювачів Blackwell в одній системі новий GPU отримав підтримку інтерфейсу NVLink п’ятого покоління, що забезпечує пропускну здатність до 1,8 Тбайт/с в обох напрямках. За допомогою цього інтерфейсу (коммутатор NVSwitch 7.2T) в одну зв’язку можна об’єднати до 576 GPU.
Однією з головних джерел вищої продуктивності B200 стали нові тензорні ядра та друге покоління механізму Transformer Engine. Останній навчився більш тонко підбирати необхідну точність обчислень тих чи інших завдань, що впливає і швидкість навчання і роботи нейромереж, і максимальний обсяг підтримуваних LLM. Тепер Nvidia пропонує тренування ІІ у форматі FP8, а для запуску навчених нейромереж вистачить і FP4. Але відзначимо, що Blackwell підтримує роботу з різними форматами, включаючи FP4, FP6, FP8, INT8, BF16, FP16, TF32 і FP64. І в усіх випадках, крім останнього, є підтримка розріджених обчислень.
Флагманським прискорювачем на новій архітектурі стане NVIDIA Grace Blackwell Superchip, в якому поєднується пара графічних процесорів B200 та центральний Arm-процесор NVIDIA Grace із 72 ядрами Neoverse V2. Даний прискорювач шириною половину серверної стійки має TDP до 2,7 кВт. Продуктивність в операціях FP4 досягає 40 Пфлопс, тоді як в операціях FP8/FP6/INT8 новий GB200 здатний забезпечити 10 Пфлопс.
Як зазначає сама NVIDIA, новинка Blackwell B200 забезпечує 30-кратний приріст продуктивності в порівнянні з NVIDIA H100 для робочих навантажень, пов’язаних з великими мовними моделями, а вона до 25 разів більш економічна та енергетично ефективна.
Перші пристрої з NVIDIA B200
NVIDIA представила систему GB200 NVL72 – фактично це серверна стійка, яка поєднує в собі 36 Grace Blackwell Superchip і пару комутаторів NVSwitch 7.2T.
Таким чином дана система включає 72 графічних процесора B200 Blackwell і 36 центральних процесорів Grace, з’єднаних NVLink п’ятого покоління. На систему припадає 13,5 ТБ пам’яті HBM3E із загальною пропускною здатністю до 576 Тбайт/с, а загальний обсяг оперативної пам’яті сягає 30 Тбайт.
Платформа GB200 NVL72 працює як єдиний GPU з ІІ-продуктивністю 1,4 ексафлопс (FP4) та 720 Пфлопс (FP8). Ця система стане будівельним блоком для нового суперкомп’ютера Nvidia DGX SuperPOD.
Для створення найбільш масштабних ІІ-систем, що включають від 10 до 100 тис. прискорювачів GB200 в рамках одного дата-центру, компанія Nvidia пропонує об’єднувати їх у кластери за допомогою мережевих інтерфейсів Nvidia Quantum-X800 InfiniBand і Spectrum-X800 Ethernet.
Свої системи на базі NVIDIA B200 незабаром представлять багато виробників, включаючи Aivres, ASRock Rack, ASUS, Eviden, Foxconn, Gigabyte, Inventec, Pegatron, QCT, Wistron, Wiwynn і ZT Systems.
Серверні системи
NVIDIA представила серверні системи HGX B100, HGX B200 та DGX B200. Всі вони пропонують по вісім прискорювачів Blackwell, пов’язаних між собою NVLink 5. Системи HGX B100 та HGX B200 не мають власного CPU, а між собою відрізняються лише енергоспоживанням і як наслідок потужністю.
HGX B100 обмежений TDP в 700 Вт і забезпечує продуктивність до 112 та 56 Пфлопс в операціях FP4 та FP8/FP6/INT8 відповідно. У свою чергу, HGX B200 має TDP в 1000 Вт і пропонує до 144 та 72 Пфлопс в операціях FP4 та FP8/FP6/INT8 відповідно.
Нарешті, DGX B200 копіює HGX B200 у плані продуктивності, але є повністю готовою системою з кількома центральними процесорами Intel Xeon Emerald Rapids. За словами NVIDIA, DGX B200 до 15 разів швидше у завданнях запуску вже навчених «трильйонних» моделей порівняно із попередником.
Не пропустіть цікаве!
Підписуйтесь на наші канали та читайте анонси хай-тек новин, тестів та оглядів у зручному форматі!
Огляд TWS-навушників Oppo Enco Air4: новіші
У компанії Oppo вимальовується досить різноманітне портфоліо Bluetooth-навушників. Подивимося, що пропонують нові доступні TWS-навушники Oppo Enco Air4
Планшет Huawei MatePad Pro 13.2 (2025) з дисплеєм 2,8K 144 Гц оснащений акумулятором 10100 мАг Huawei планшет
Huawei представила новий флагманський планшет MatePad Pro 13.2 (2025), який пропонує збільшений дисплей та значно покращену продуктивність
Ще одна дійна корова? OpenAI сплачуватиме податки в Україні події в Україні штучний інтелект
OpenAI повідомила українських користувачів платної підписки ChatGPT про те, що з 1 січня 2025 почне нараховувати ПДВ на свої послуги