Поднимаем распределённое обучение и дообучение больших моделей на GPU-кластере. Наивный data-parallel упирается в коммуникации задолго до нужного масштаба — делаем так, чтобы кластер не простаивал, а многодневный прогон переживал сбой узла.
3D-параллелизм и шардинг
Комбинируем data-, tensor- и pipeline-параллелизм под модель и интерконнект, шардируем состояния оптимизатора (FSDP/ZeRO) и перекрываем коммуникации с вычислением, чтобы карты считали, а не ждали сеть.
Отказоустойчивость прогона
Асинхронные чекпойнты и эластичность: выпавший узел не отправляет прогон к началу, обучение продолжается с последнего чекпойнта. Профилируем по утилизации — где карты простаивают, там и узкое место.