Intel Gaudi 3 майже вдвічі швидше за ІІ-прискорювачі NVIDIA H100
12.04.24
Intel представила нові ІІ-прискорювачі Gaudi 3, які дозволяють навчати нейромережі в 1,7 рази швидше, на 50% збільшити продуктивність і працюють на 40% ефективніше за конкуруючих H100 від NVIDIA, які є найпопулярнішими на ринку.
Порівняння з прискорювачами NVIDIA
Intel також поділилася власними тестами продуктивності, порівнявши Gaudi 3 із системами на основі H100. За словами Intel, Gaudi 3 справляється з навчанням нейромереж у 1,5–1,7 рази швидше. Порівняння велося на моделях LLAMA2-7B та LLAMA2-13B на системах з 8 та 16 прискорювачами, а також на моделі GPT 3-175B на системі з 8192 прискорювачами. Intel не порівнювала системи на Gaudi 3 з системами на H200 від NVIDIA, у якого на 76% більше пам’яті, а її пропускна здатність вище на 43%.
Intel порівняла Gaudi 3 з H200 в інференсі, але вже не кластерами, а окремим модулем. У п’яти тестах з LLAMA2-7B/70B продуктивність Gaudi 3 виявилася на 10-20% нижчою, у двох дорівнює і в одному трохи вище за H200. При цьому Intel заявляє про 2,6-кратну перевагу в енергоспоживання порівняно з H100.
Що нового?
Intel Gaudi 3 — третє покоління прискорювачів ІІ, які з’явилися завдяки придбанню Intel у 2019 році компанії Habana Labs за $2 млрд. Масове виробництво Gaudi 3 для OEM-виробників серверів розпочнеться у третьому кварталі 2024 року. Крім цього, Gaudi 3 буде доступний у хмарному сервісі Intel Developer Cloud для розробників, що дозволить потенційним клієнтам випробувати можливості нового чіпа.
Gaudi 3 використовує ту ж архітектуру та основні принципи, що і його попередник, але при цьому він виконаний за більш сучасним 5-нм техпроцесом TSMC, тоді як у Gaudi 2 використані 7-нм чіпи. Прискорювач складається з двох кристалів, на які припадає 64 ядра Tensor Processing Cores (TPC) п’ятого покоління та вісім матричних математичних двигунів (MME), а також 96 Мбайт пам’яті SRAM із пропускною здатністю 12,8 Тбайт/с. Навколо встановлено 128 Гбайт HBM2e із пропускною здатністю 3,7 Тбайт/с. Також Gaudi 3 укомплектований 24 контролерами Ethernet RDMA з пропускною здатністю по 200 Гбіт/с, які забезпечують зв’язок між прискорювачами в одному сервері, так і між різними серверами в одній системі.
Gaudi 3 випускатиметься у двох формфакторах. Перший – OAM (модуль прискорювача OCP) HL-325L, що використовується у високопродуктивних системах на основі прискорювачів обчислень. Цей прискорювач отримає TDP 900 Вт та продуктивність 1835 терафлопс у FP8. Модулі OAM встановлюються по 8 штук на UBB-вузол HLB-325, які можна поєднувати в системи до 1024 вузлів. У порівнянні з минулим поколінням, Gaudi 3 забезпечує вдвічі більшу продуктивність у FP8 і вчетверо – в BF16, вдвічі більшу пропускну спроможність мережі та 1,5 рази – пам’яті.
Другий формфактор – двослотова карта розширення PCIe з TDP 600 Вт. За заявами Intel, незважаючи на помітно менший TDP цієї версії, продуктивність у FP8 залишилася тією ж — 1835 терафлопс. А ось масштабованість гірша – модулі розраховані на роботу групами по чотири. Gaudi 3 у цьому формфакторі з’являться у 4 кварталі 2024 року.
Не пропустіть цікаве!
Підписуйтесь на наші канали та читайте анонси хай-тек новин, тестів та оглядів у зручному форматі!
Asus Zenbook S 16 (UM5606): нова хвиля
Новий ноутбук Asus Zenbook S 16 виконаний у корпусі з незвичайного металу, побудований на базі свіжої платформи AMD, адаптованої для ІІ, та має відмінну автономність. Розкажемо про цей преміальний ноутбук детальніше
Akash System використовує алмази для охолодження процесорів у дата-центрах, космічній та військовій техніці процесор розробка
Akash System уклала меморандум із Міністерством торгівлі США, розраховуючи на $18,2 мільйона прямого фінансування та $50 мільйонів податкових пільг. Додатково стартап вже залучив 18 мільйонів доларів від венчурних інвесторів.
Bugatti W16 Mistral розігнався до 453,91 км/год і став найшвидшим родстером у світі автомобіль
Хоча Bugatti не розкрила, чи вносилися зміни до силової установки, автомобіль використав той же 8.0-літровий W16 двигун з чотирма турбінами та потужністю 1600 к.с.