Сколько вы планируете тратить на поддержку нейросети в год, если разработка обошлась вам в 10 миллионов рублей? Ноль? Десять процентов от суммы, как за обычное корпоративное ПО?
Обе цифры приведут к жестокому кассовому разрыву. Скрытая стоимость владения ИИ-системой: что не пишут в КП и сколько стоит 3 года эксплуатации — это огромная слепая зона, о которую разбиваются 80% enterprise-внедрений. Нейросети не живут по правилам классической разработки. Они стареют с момента выкатки в прод.
Дешёвая разработка ИИ на старте — это 100% гарантия того, что вы разоритесь на эксплуатации.
Анатомия деградации и реальный MLOps
В отличие от монолитных CRUD-приложений, нейросеть начинает деградировать ровно в ту секунду, когда видит реальные данные с завода, а не стерильный валидационный датасет. Это банальный физический процесс — дрейф данных (data drift). Оборудование изнашивается, лампы в цеху тускнеют, меняется цветовая температура, объективы камер покрываются микропылью, а новые операторы нажимают кнопки с иной задержкой. Точность неумолимо падает. Модель компьютерного зрения, выдававшая p99 98% на тестах, через четыре месяца показывает 82%, ложно срабатывает на бликах, и бизнес начинает терять деньги.
Чтобы вернуть её к жизни, требуется переобучение. И это не нажатие одной кнопки. Это сбор ложноположительных срабатываний, слепая разметка новых данных, время на кластере с GPU, валидация метрик, A/B-тесты и теневой деплой (shadow mode).
Наш подход в Morana Labs жёстче, чем в среднем по рынку: мы изначально отказываемся от проектов, где заказчик хочет просто «купить веса модели» без выстроенного конвейера доставки. Без автоматизации пайплайнов дообучение превращается в ручной ад дата-сайентистов, который каждый месяц выжигает бюджет, сопоставимый с первоначальной разработкой. Грамотная инвестиция в MLOps и production ML на старте — создание feature store, пайплайнов оценки, версионирование — полностью окупается за первые 12-18 месяцев.
Если подрядчик сэкономил на инфраструктуре данных, вам продали исследовательский прототип под видом production-ready решения. Вы будете платить фуллтайм зарплату синьор-разработчику просто за то, чтобы он руками запускал скрипты и молился, чтобы тензоры сошлись.
Помимо переобучения, в операционный TCO влетает мониторинг. Если вы не знаете в реальном времени, что распределение фичей съехало, вы уже не контролируете систему. Дальше идёт железо и дежурства. Индустриальный реалтайм-инференс требует хардкорного SRE. Охлаждение в серверной стойке цеха дало сбой, видеокарты перегрелись и ушли в троттлинг — время ответа (latency) подскочило с 40 мс до 600 мс. Конвейер дефектоскопии физически встал, продукция летит в брак. Кто за это отвечает в 3 часа ночи?
Добавьте сюда обновления безопасности и совместимости. Библиотеки машинного обучения полны уязвимостей, версии CUDA обновляются, API интеграций меняются. Изолировать и патчить среду нужно постоянно. В итоге, если вы собрали ИИ-систему на костылях, стоимость поддержки за три года составит 300% от цены разработки. Вы сэкономили пару миллионов в начале, чтобы отдать десятки за поддержание пульса франкенштейна.
Это сухая математика, которую сейлзы не показывают в красивых презентациях.
Облако против On-premise: битва на дистанции
Здесь разворачивается классическое корпоративное противостояние. Вендоры обожают продавать облачный инференс: старт копеечный, железо на баланс брать не надо, ресурсы выделяются по клику.
Но посчитаем три года эксплуатации тяжелой CV-модели в режиме 24/7.
В облаке вы платите за аренду инстанса с A100 или V100 почасово. Платите за сетевой трафик, непрерывно гоняя сотни гигабайт сырого видео с промышленных камер в дата-центр. Вы получаете непредсказуемый сетевой jitter, из-за которого p99 latency скачет как кардиограмма, ломая тайминги программируемых логических контроллеров. Через год вы с ужасом понимаете, что отдали за аренду облака сумму, равную стоимости трёх собственных серверов с топовыми ускорителями. Через три года — стоимость небольшого ЦОДа.
Свой on-premise сервер или edge-вычислитель жестоко бьёт по бюджету один раз — на этапе CAPEX. Да, нужно согласовать место в серверной, подвести электричество и нанять руки админа для обслуживания железа. Зато данные физически не покидают защищенный периметр предприятия. Сетевая задержка стабильна и почти равна нулю. А OPEX (операционные расходы) прогнозируется с точностью до рубля на годы вперед.
Аренда чужого графического процессора имеет математический смысл только для рваных, эпизодических нагрузок. Для постоянного потокового инференса под высокой нагрузкой облако — это костер из пятитысячных купюр.
Как заложить эксплуатацию в договор до первой строчки кода
Если интегратор не обсуждает с вами стоимость поддержки до подписания договора на разработку, вас держат за дурака. Систему нельзя просто передать в эксплуатацию ИТ-отделу, который привык администрировать 1С, — они её уронят в первый же месяц, не отследив OOM (Out of Memory) ошибки на GPU.
Вот суровая реальность структуры затрат на ИИ за три года (в процентах от чека на первичную разработку):
- Инфраструктура и инференс (60-80%): Амортизация железа, резервирование нод для отказоустойчивости, счета за электричество или облачные ресурсы.
- MLOps и пайплайны данных (40-60%): Поддержка конвейеров, версионирование датасетов, контроль Data Quality на входе.
- Борьба с дрейфом и файн-тюнинг (50-70%): Оплата разметки свежих семплов, машинное время на переобучение, валидация качества моделей.
- SRE и безопасность (20-30%): Дежурство, мониторинг метрик деградации, накатка патчей безопасности библиотек и драйверов.
Сложив всё вместе, совокупный TCO за три года легко превышает 170-240% от изначального контракта.
Наша позиция в Morana Labs железобетонна: эти цифры нужно выкладывать на стол сразу на этапе пресейла. Выбирая команду без опыта жесткой эксплуатации систем машинного обучения, бизнес покупает не ИИ-решение, а гигантский технический долг, упакованный в докер-контейнер.
Чудес в инженерии не бывает. Модель генерирует прибыль ровно так долго, как долго вы готовы инвестировать в её обслуживание.