Серверы для машинного обучения: NVIDIA, AMD и HUAWEI

Серверы для машинного обучения: NVIDIA, AMD и HUAWEI

ML-кластер

Высокопроизводительные системы для обучения нейросетей

Требования к ML-инфраструктуре

Современные серверы для машинного обучения должны обеспечивать:

  • Обработку экзабайтов данных
  • Поддержку распределенного обучения
  • Интеграцию с TensorFlow/PyTorch

Ключевые параметры 2024:

  • Производительность ≥ 1 PFLOPS (FP16)
  • Память ≥ 80 ГБ на GPU
  • Масштабируемость до 1000 GPU

Серверы NVIDIA для машинного обучения

Платформа NVIDIA для машинного обучения на базе DGX H100:

ПараметрDGX H100HGX A100
Tensor Cores576432
Память HBM394 ГБ80 ГБ
NVLink скорость900 ГБ/с600 ГБ/с
NVIDIA DGX

Кластер NVIDIA DGX SuperPOD для глубокого обучения

Серверы AMD для машинного обучения

Серверы AMD на базе Instinct MI300X:

  • 192 ГБ HBM3 памяти
  • Поддержка ROCm 6.0
  • Интеграция с PyTorch через HIP

Преимущества решений AMD:

  • Стоимость TFLOPS на 25% ниже
  • Открытая экосистема ПО
  • PCIe 5.0 x16

Серверы HUAWEI для машинного обучения

Китайские решения на базе Atlas 900:

ПараметрAtlas 900Ascend 910B
FP16 Производительность256 PFLOPS128 PFLOPS
Память32 ГБ HBM224 ГБ HBM2
СпециализацияКомпьютерное зрениеNLP
HUAWEI Atlas

Кластер HUAWEI Atlas для задач NLP

Производительность

Тестирование ResNet-50 (изображения/сек):

СистемаFP32FP16
NVIDIA DGX H10012,50028,000
AMD MI300X9,80021,500
HUAWEI Atlas 9007,20016,800

Поддержка фреймворков

Ключевые технологии:

  • NVIDIA: CUDA, cuDNN, TensorRT
  • AMD: ROCm, MIOpen, ONNX Runtime
  • HUAWEI: MindSpore, CANN

Рекомендации

Критерии выбора:

  • NVIDIA: Для сложных моделей и больших данных
  • AMD: Бюджетные решения с открытым стеком
  • HUAWEI: Локальные проекты в Азии

Учитывайте требования к обучению моделей и размеру датасетов.


Наши предложения:

ASRock Rack 4U8G-ROME2/2T RTX A6000 A10 A40 H100 A100 L40S A30 L4

Категория товара
Сервер
DGX/HGX/PCI/AMD
PCI Express
Форм-фактор
4U
GPU
H100 / A100 / A40 / A30 / A10 / L4 / L40S / RTX A6000
Макс. кол-во GPU
8
Серия CPU
AMD EPYC 7003 / AMD EPYC 7002
Кол-во CPU
2
Кол-во дисков
12
Форм фактор дисков
3.5 дюйма
Кол-во DIMM
32
Артикул
4U8G-ROME2/2T
Производитель
ASRock Rack
Тип охлаждения
Воздушное охлаждение
Платформа сервера
x86
Сертифицирован Nvidia
Да
GPU Type
  • H100
  • A100
  • A40
  • A30
  • A10
  • L40S
  • L4
  • RTX A6000
  $0
шт

GIGABYTE G494-SB4-AAP2 H200

Категория товара
Сервер
DGX/HGX/PCI/AMD
PCI Express
Форм-фактор
4U
GPU
H200
Макс. кол-во GPU
8
Серия CPU
Intel Xeon 6
Кол-во CPU
2
Кол-во дисков
12
Форм фактор дисков
2,5 дюйма
Кол-во DIMM
32
Производитель
GIGABYTE
Тип охлаждения
Воздушное охлаждение
Платформа сервера
x86
Сертифицирован Nvidia
Да
GPU Type
  • H200 NVL
  $0
шт

Supermicro SYS-421GU-TNXR H100 H200

Категория товара
Сервер
DGX/HGX/PCI/AMD
HGX Baseboard
Форм-фактор
4U
GPU
H100 / H200
Макс. кол-во GPU
4
Серия CPU
Intel Xeon Scalable 4 / Intel Xeon Scalable 5
Кол-во CPU
2
Кол-во дисков
6
Форм фактор дисков
2,5 дюйма
Кол-во DIMM
32
Артикул
SYS-421GU-TNXR
Производитель
Supermicro
Тип охлаждения
Воздушное охлаждение
Платформа сервера
x86
Сертифицирован Nvidia
Да
GPU Type
  • HGX H100 4GPU
  • HGX H200 4GPU
  $223 000
шт

Supermicro AS-8126GS-TNMR MI325X MI350X

Категория товара
Сервер
DGX/HGX/PCI/AMD
AMD instinct Baseboard
Форм-фактор
8U
GPU
MI350 / MI325X
Макс. кол-во GPU
8
Серия CPU
AMD EPYC 9005 / AMD EPYC 9004
Кол-во CPU
2
Кол-во дисков
10
Форм фактор дисков
2,5 дюйма
Кол-во DIMM
24
Артикул
AS-8126GS-TNMR
Производитель
Supermicro
Тип охлаждения
Воздушное охлаждение
Платформа сервера
x86
Сертифицирован Nvidia
Нет
GPU Type
  • Mi325X 8GPU
  • Mi350 8GPU
  $295 000
шт