Распределенное обучение визуальной foundation-модели на GPU-кластере

Научили GPU-кластер R&D-команды работать без простоев и потерь: 512 карт в одном прогоне обучения модели компьютерного зрения, цикл короче в 4 раза, сбой сервера больше не обнуляет недели работы.

Задача

R&D-команда обучала foundation-модель компьютерного зрения — универсальную нейросеть, которая учится понимать изображения. После сотни видеокарт (GPU) новые почти не ускоряли работу: карты дольше ждали пересылки данных по сети, чем считали.

Второй риск — сбои: недельный прогон гиб из-за одного отказавшего сервера и откатывался почти к началу. Требовались сотни GPU в одной связке и защита от таких потерь.

Подход

Разделили обучение между картами по трем направлениям и совместили пересылку данных с расчетами — карты перестали ждать сеть. Оптимизировали не точность модели, а загрузку кластера: где простой, там узкое место.

Прогресс сохраняется в фоне. При отказе сервера прогон продолжается с последней сохраненной точки на оставшихся машинах.

Стек

PyTorch FSDP · NCCL + InfiniBand · 3D parallelism · async checkpointing · Slurm/Kubernetes

Результат

Обучение, на которое закладывали недели, теперь укладывается в дни. Длинные прогоны доходят до конца даже при отказах оборудования.

Распределенное обучение визуальной foundation-модели на GPU-кластере

Задача

Подход

Стек

Результат

Мульти-камерный трекинг матча в прямом эфире с broadcast-задержкой

Контроль СИЗ на стройплощадке: видеоаналитика на edge

Помощь рентгенологу: сегментация и приоритизация КТ-исследований on-prem

Опишите задачу — ответим как инженеры.