Месяц назад финдир одного энтерпрайза с гордостью показал мне контракт на аренду фермы H100 по невероятно «выгодной» ставке. Через три недели его ML-команда сожгла квартальный бюджет проекта просто на скачивании весов и простоях железа в ожидании данных от сетевого хранилища. Обычная история. Аренда GPU A100 H100 в России, цена, сравнение провайдеров — всё это на рекламных лендингах выглядит красиво, пока дело не доходит до реальной нагрузки, очередей на квоты и биллинга за сопутствующую обвязку. Мы прогнали типовые задачи через восемь ключевых игроков отечественного рынка, чтобы показать, где заканчивается маркетинг и начинается инженерия.
Облако для ML с GPU: цена на витрине и суровая реальность
Ниже срез тарифов за один час работы базового инстанса с одной картой, снятый на середину месяца. Цены округлены для читаемости, но суть передают точно. Прочерк означает, что конфигурации нет в публичном доступе, либо она выдаётся исключительно по запросу через менеджера в индивидуальном порядке.
| Провайдер | RTX 4090 | L40S 48GB | A100 80GB | H100 80GB |
|---|---|---|---|---|
| Selectel | 65 ₽ | 150 ₽ | 370 ₽ | 950 ₽ |
| Cloud.ru | — | — | 400 ₽ | 1100 ₽ |
| Yandex Cloud | — | — | 410 ₽ | 1200 ₽ |
| K2 Cloud | — | 160 ₽ | 390 ₽ | — |
| T1 | — | — | 420 ₽ | — |
| HOSTKEY | 55 ₽ | 145 ₽ | 360 ₽ | 900 ₽ |
| Immers | 50 ₽ | — | 340 ₽ | — |
| HPC Park | — | — | 350 ₽ | 880 ₽ |
Смотрите на цифры с холодным рассудком. Bare-metal серверы у HOSTKEY или Selectel обойдутся дешевле за чистый час вычислений, но вы получаете голое железо. Вся возня с драйверами, настройкой CUDA, поднятием Docker-окружения и оркестрацией ложится на ваших инженеров. Yandex Cloud и Cloud.ru берут ощутимую премию сверху, но отдают вам управляемые Kubernetes-кластеры, готовые образы для ML и прозрачную интеграцию с S3. K2 Cloud и T1 метят в крупный энтерпрайз: там нет кнопки «создать машину за пять минут», зато есть глубокая кастомизация приватных инсталляций. HPC Park остаётся сильным нишевым игроком для тяжелых вычислений с адекватным ценником, а Immers отлично подходит для быстрой обкатки гипотез на консьюмерских картах.
GPUaaS Россия 2026: иллюзия доступности и скрытые косты
Главный миф, который нужно разрушить прямо сейчас — вы не можете просто зайти с улицы с кредитной картой и накликать себе кластер из восьми H100 на выходные. Дефицит никуда не делся. Опубликованный ценник за час работы топового ускорителя — это математическая абстракция. Если карта и есть в наличии, её отдадут клиенту, который подпишет коммит на полгода или год. В режиме on-demand пулы H100 практически всегда заняты. Вам предложат встать в очередь или довольствоваться A100, которых на рынке стало значительно больше.
Но даже если вы урвали нужный инстанс, начинается самое интересное — скрытый счёт. Вы платите не только за GPU. Вы платите за блочное хранилище, и если вам нужны высокие IOPS для чтения огромного датасета в память, тариф на быстрые NVMe-диски может добавить к счёту до 30%. Вы платите за исходящий трафик: обучение часто требует выгрузки чекпоинтов, а инференс — постоянной отдачи тяжелых ответов. Самая жестокая ловушка — это простой. Вы остановили виртуальную машину на ночь, чтобы сэкономить? Отлично. Только у большинства провайдеров вы либо продолжаете платить за резерв дорогой карты (иначе её перехватят другие), либо отпускаете её в пул, и утром ваш проект встаёт колом, потому что свободных мощностей больше нет.
FP8 на H100: производительность за рубль и ловушка дисковой подсистемы
Задайте себе вопрос: зачем платить 1200 рублей в час за H100, если A100 стоит в три раза дешевле? Ответ кроется не в сырых терафлопсах, а во встроенной аппаратной поддержке формата FP8 на архитектуре Hopper. При инференсе современных LLM использование FP8 позволяет H100 выдавать почти в три раза больше токенов в секунду по сравнению с A100 в FP16, упираясь не в вычисления, а в пропускную способность памяти. Математика жестока: если ваш сервис генерирует непрерывный поток запросов, H100 обходится дешевле в пересчёте на один токен. Если же у вас редкие пакетные задачи — вы просто греете воздух за огромные деньги, и вам за глаза хватит недооценённой L40S, которая на генерации часто рвёт A100 при вдвое меньшей цене.
Однако вся эта вычислительная мощь разбивается о реальность дешевых сетевых дисков. Мы регулярно видим, как арендованный кластер работает на 15% утилизации, потому что процессор ждёт данные от медленного стораджа. Прежде чем подписывать договор на GPU, всегда запускайте простейший синтетический тест дисковой подсистемы.
import torch
import time
import os
def test_io_bottleneck(batch_size=128, tensor_size=(3, 224, 224), iterations=500):
dataset_path = "/mnt/cloud_volume/dummy_dataset.pt"
if not os.path.exists(dataset_path):
dummy_data = torch.randn(1000, *tensor_size)
torch.save(dummy_data, dataset_path)
start = time.time()
data = torch.load(dataset_path)
for _ in range(iterations):
batch = data[torch.randint(0, 1000, (batch_size,))].cuda(non_blocking=True)
torch.cuda.synchronize()
throughput = (batch_size * iterations) / (time.time() - start)
print(f"I/O to GPU throughput: {throughput:.2f} samples/sec")
print(f"GPU utilization warning: Upgrade storage if throughput is below 5000")
if __name__ == "__main__":
test_io_bottleneck()Если этот код показывает, что ваши данные ползут со скоростью старого HDD, никакая архитектура Hopper вас не спасёт. Вы арендуете гоночный болид и заставляете его ехать по грунтовке, оплачивая каждую минуту по тарифу Формулы-1.
Матрица решений и точка невозврата к своей стойке
Для обучения фундаментальных моделей матрица выбора сводится к крупным игрокам вроде Yandex Cloud или Cloud.ru — там есть интерконнект InfiniBand/RoCE, без которого распределенное обучение на нескольких узлах превратится в бесконечное ожидание синхронизации градиентов по Ethernet. Для постоянного высоконагруженного инференса в проде выгоднее уходить на bare-metal к Selectel или HPC Park, полностью срезая накладные расходы гипервизора. А для R&D-пилотов, где карта нужна пару раз в неделю, идеальным выбором остаются HOSTKEY или Immers с их фермами на RTX 4090.
Но есть предел, за которым облако теряет смысл. Если профиль вашей нагрузки требует утилизации видеокарт выше 60% в режиме 24/7, аренда превращается в сжигание капитала. Точка окупаемости собственной стойки с A100 или L40S сегодня наступает примерно на восьмой-десятый месяц непрерывной работы. С этого момента вы начинаете работать в плюс, полностью забирая данные в свой периметр и забывая про счета за исходящий трафик.
Перед подписанием любого долгосрочного коммита задайте менеджеру облака прямые вопросы об интерконнекте между узлами, стоимости холодного хранения чекпоинтов и штрафах за досрочный отказ от пула. А чтобы детально спроектировать архитектуру и рассчитать реальную стоимость инференса на железе без иллюзий — прогоните свои вводные через /calculator.