Аренда GPU A100 и H100 в России: цены 8 облаков в 2026

Месяц назад финдир одного энтерпрайза с гордостью показал мне контракт на аренду фермы H100 по невероятно «выгодной» ставке. Через три недели его ML-команда сожгла квартальный бюджет проекта просто на скачивании весов и простоях железа в ожидании данных от сетевого хранилища. Обычная история. Аренда GPU A100 H100 в России, цена, сравнение провайдеров — все это на рекламных лендингах выглядит красиво, пока дело не доходит до реальной нагрузки, очередей на квоты и биллинга за сопутствующую обвязку. Мы прогнали типовые задачи через восемь ключевых игроков отечественного рынка, чтобы показать, где заканчивается маркетинг и начинается инженерия.

Облако для ML с GPU: цена на витрине и суровая реальность

Ниже срез тарифов за один час работы базового инстанса с одной картой, снятый на середину месяца. Цены округлены для читаемости, но суть передают точно. Прочерк означает, что конфигурации нет в публичном доступе, либо она выдается исключительно по запросу через менеджера в индивидуальном порядке.

Провайдер	RTX 4090	L40S 48GB	A100 80GB	H100 80GB
Selectel	65 ₽	150 ₽	370 ₽	950 ₽
Cloud.ru	—	—	400 ₽	1100 ₽
Yandex Cloud	—	—	410 ₽	1200 ₽
K2 Cloud	—	160 ₽	390 ₽	—
T1	—	—	420 ₽	—
HOSTKEY	55 ₽	145 ₽	360 ₽	900 ₽
Immers	50 ₽	—	340 ₽	—
HPC Park	—	—	350 ₽	880 ₽

Смотрите на цифры с холодным рассудком. Bare-metal серверы у HOSTKEY или Selectel обойдутся дешевле за чистый час вычислений, но вы получаете голое железо. Вся возня с драйверами, настройкой CUDA, поднятием Docker-окружения и оркестрацией ложится на ваших инженеров. Yandex Cloud и Cloud.ru берут ощутимую премию сверху, но отдают вам управляемые Kubernetes-кластеры, готовые образы для ML и прозрачную интеграцию с S3. K2 Cloud и T1 метят в крупный энтерпрайз: там нет кнопки «создать машину за пять минут», зато есть глубокая кастомизация приватных инсталляций. HPC Park остается сильным нишевым игроком для тяжелых вычислений с адекватным ценником, а Immers отлично подходит для быстрой обкатки гипотез на консьюмерских картах.

GPUaaS Россия 2026: иллюзия доступности и скрытые косты

Главный миф, который нужно разрушить прямо сейчас — вы не можете просто зайти с улицы с кредитной картой и накликать себе кластер из восьми H100 на выходные. Дефицит никуда не делся. Опубликованный ценник за час работы топового ускорителя — это математическая абстракция. Если карта и есть в наличии, ее отдадут клиенту, который подпишет коммит на полгода или год. В режиме on-demand пулы H100 практически всегда заняты. Вам предложат встать в очередь или довольствоваться A100, которых на рынке стало значительно больше.

Но даже если вы урвали нужный инстанс, начинается самое интересное — скрытый счет. Вы платите не только за GPU. Вы платите за блочное хранилище, и если вам нужны высокие IOPS для чтения огромного датасета в память, тариф на быстрые NVMe-диски может добавить к счету до 30%. Вы платите за исходящий трафик: обучение часто требует выгрузки чекпоинтов, а инференс — постоянной отдачи тяжелых ответов. Самая жестокая ловушка — это простой. Вы остановили виртуальную машину на ночь, чтобы сэкономить? Отлично. Только у большинства провайдеров вы либо продолжаете платить за резерв дорогой карты (иначе ее перехватят другие), либо отпускаете ее в пул, и утром ваш проект встает колом, потому что свободных мощностей больше нет.

FP8 на H100: производительность за рубль и ловушка дисковой подсистемы

Задайте себе вопрос: зачем платить 1200 рублей в час за H100, если A100 стоит в три раза дешевле? Ответ кроется не в сырых терафлопсах, а во встроенной аппаратной поддержке формата FP8 на архитектуре Hopper. При инференсе современных LLM использование FP8 позволяет H100 выдавать почти в три раза больше токенов в секунду по сравнению с A100 в FP16, упираясь не в вычисления, а в пропускную способность памяти. Математика жестока: если ваш сервис генерирует непрерывный поток запросов, H100 обходится дешевле в пересчете на один токен. Если же у вас редкие пакетные задачи — вы просто греете воздух за огромные деньги, и вам за глаза хватит недооцененной L40S, которая на генерации часто рвет A100 при вдвое меньшей цене.

Однако вся эта вычислительная мощь разбивается о реальность дешевых сетевых дисков. Мы регулярно видим, как арендованный кластер работает на 15% утилизации, потому что процессор ждет данные от медленного стораджа. Прежде чем подписывать договор на GPU, всегда запускайте простейший синтетический тест дисковой подсистемы.

import torch
import time
import os

def test_io_bottleneck(batch_size=128, tensor_size=(3, 224, 224), iterations=500):
    dataset_path = "/mnt/cloud_volume/dummy_dataset.pt"
    if not os.path.exists(dataset_path):
        dummy_data = torch.randn(1000, *tensor_size)
        torch.save(dummy_data, dataset_path)

    start = time.time()
    data = torch.load(dataset_path)
    
    for _ in range(iterations):
        batch = data[torch.randint(0, 1000, (batch_size,))].cuda(non_blocking=True)
    
    torch.cuda.synchronize()
    throughput = (batch_size * iterations) / (time.time() - start)
    print(f"I/O to GPU throughput: {throughput:.2f} samples/sec")
    print(f"GPU utilization warning: Upgrade storage if throughput is below 5000")

if __name__ == "__main__":
    test_io_bottleneck()

Если этот код показывает, что ваши данные ползут со скоростью старого HDD, никакая архитектура Hopper вас не спасет. Вы арендуете гоночный болид и заставляете его ехать по грунтовке, оплачивая каждую минуту по тарифу Формулы-1.

Матрица решений и точка невозврата к своей стойке

Для обучения фундаментальных моделей матрица выбора сводится к крупным игрокам вроде Yandex Cloud или Cloud.ru — там есть интерконнект InfiniBand/RoCE, без которого распределенное обучение на нескольких узлах превратится в бесконечное ожидание синхронизации градиентов по Ethernet. Для постоянного высоконагруженного инференса в проде выгоднее уходить на bare-metal к Selectel или HPC Park, полностью срезая накладные расходы гипервизора. А для R&D-пилотов, где карта нужна пару раз в неделю, идеальным выбором остаются HOSTKEY или Immers с их фермами на RTX 4090.

Но есть предел, за которым облако теряет смысл. Если профиль вашей нагрузки требует утилизации видеокарт выше 60% в режиме 24/7, аренда превращается в сжигание капитала. Точка окупаемости собственной стойки с A100 или L40S сегодня наступает примерно на восьмой-десятый месяц непрерывной работы. С этого момента вы начинаете работать в плюс, полностью забирая данные в свой периметр и забывая про счета за исходящий трафик.

Перед подписанием любого долгосрочного коммита задайте менеджеру облака прямые вопросы об интерконнекте между узлами, стоимости холодного хранения чекпоинтов и штрафах за досрочный отказ от пула. А чтобы детально спроектировать архитектуру и рассчитать реальную стоимость инференса на железе без иллюзий — прогоните свои вводные через /calculator.

Аренда GPU в России: прогнали A100/H100 у 8 облаков — реальная цена часа, наличие и скрытый счет

Облако для ML с GPU: цена на витрине и суровая реальность

GPUaaS Россия 2026: иллюзия доступности и скрытые косты

FP8 на H100: производительность за рубль и ловушка дисковой подсистемы

Матрица решений и точка невозврата к своей стойке

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

Этапы внедрения 1С:ERP и критерии приемки каждого этапа

Сколько стоит внедрение ERP: разбор сметы по этапам

Сколько стоит разработка нейросети на заказ в 2026 году: формула сметы и вилки входа

Опишите задачу — ответим как инженеры.