В 83% случаев модель, выдающая 99% точности на тестовом датасете во время красивого пресейла, ломается на первой неделе реальной эксплуатации. Причина проста: бизнес покупает ноутбук дата-саентиста, а не работающую систему. Индустрия забита командами, которые умеют скачивать готовые веса из опенсорса и обучать YOLO на вылизанных картинках, но впадают в ступор при словах «деградация», «out-of-memory» или «асинхронный инференс». Миф о том, что удачный скрипт в тепличных условиях гарантирует успех на реальном железе, обходится корпорациям в миллионы выброшенных долларов. Именно поэтому вопрос, как проверить AI-подрядчика до подписания: due diligence на реальную экспертизу, а не на лендинг, должен решаться до любых разговоров об архитектуре нейросетей.
Технический due diligence: проверка боем, а не презентацией
Когда к нам в Morana Labs приходят переделывать мертвые проекты за предыдущими интеграторами, я всегда смотрю не на метрики обученной сети, а на инфраструктуру вокруг нее.
Первый этап отсева — жесткий разбор аналогичного кейса из практики подрядчика. Запретите им говорить про количество слоев и трансформеры. Пусть покажут системные метрики до и после внедрения, а затем подробно опишут свой пайплайн MLOps. Спросите, как устроено версионирование данных и моделей в их стандартном стеке. Узнайте, как организован CI/CD контур для инференса на edge-устройствах или серверах. Потребуйте объяснить, что происходит, когда распределение входящих данных неизбежно меняется со временем, и как они детектируют этот дрейф. Если в ответ вы слышите пространные рассуждения о том, что они просто дообучат сеть по звонку, перед вами любители. Реальный продакшен требует автоматизированных графан с алертами на drift detection.
Демо на ноутбуке с батч-обработкой видеофайла не имеет ничего общего с потоковой нагрузкой. Когда нейросеть крутится локально, никто не считает накладные расходы на сериализацию тензоров или копирование памяти между CPU и GPU. В реальном цеху, где камеры отдают поток со скоростью 60 FPS, инференс ограничен жесткими таймингами. Просадка p99 latency на двадцать миллисекунд означает, что система пропустит бракованную деталь на конвейере.
# Если подрядчик не знает, как выглядит базовый мониторинг
# деградации модели под нагрузкой, он вам не нужен.
rules:
- alert: ModelDataDriftDetected
expr: sum(rate(seldon_model_score_drift_total[15m])) by (model_name) > 0.05
for: 5m
labels:
severity: warning
annotations:
summary: "Data drift threshold exceeded for {{ $labels.model_name }}"
description: "Model input distribution shift detected. Retraining trigger required."Это примитивный манифест Prometheus для отслеживания деградации предсказаний. Если ваш потенциальный партнер не может показать документацию по observability в своих прошлых проектах, вы просто оплачиваете их обучение на ваших ошибках.
Продолжайте задавать неудобные фильтрующие вопросы. Попросите рассказать о самом жестком инциденте в их проде и о том, как они его чинили. Тишина или рассказ о мелком баге в веб-интерфейсе — красный флаг. Настоящий high-load всегда кровоточит: падают воркеры из-за нехватки видеопамяти, отваливается брокер сообщений под спамом битых кадров, память течет из-за кривого биндинга C++ библиотек в питоне. Еще один стопроцентный маркер дилетантов — обещание заоблачной accuracy до получения доступа к вашим сырым данным. Профессионал закладывает бюджет на разметку грязи, требует анализа аномалий и никогда не отказывается от короткого оплачиваемого пилота с жесткой фиксацией бизнес-метрик.
Юридический каркас и цена дешевой разработки
Вторая иллюзия заказчиков — вера в то, что технической компетенции достаточно для безопасного партнерства. Юридическая и финансовая надежность подрядчика в AI-проектах критичнее, чем при заказной веб-разработке. Веб-сайт можно передать другой команде за неделю, обученную модель без инфраструктуры — никогда.
Требуйте передачи исключительных прав не только на исходный код инференса и финальные веса модели. Модели устаревают, поэтому реальный капитал — это пайплайны подготовки данных, скрипты очистки, конфигурации экспериментов и логика аугментаций. Если подрядчик обанкротится, команда распадется или интегратор решит выкрутить вам руки стоимостью поддержки, у вас на серверах должен остаться воспроизводимый от А до Я процесс, а не черный ящик с чужим API-ключом. Практика escrow, когда критичные артефакты и кодовая база депонируются у независимой третьей стороны до завершения оплат и нагрузочных тестов, спасла множество enterprise-проектов от катастрофы.
Здесь мы упираемся в суровую экономику. Топовая экспертиза стоит дорого, и к профильным AI-командам всегда выстраивается очередь. Дешевый подрядчик с мгновенной доступностью — это гарантированный риск переделки всей системной архитектуры с нуля через полгода эксплуатации. Нанимая интегратора, вы покупаете инженерную культуру и выстроенный фундамент production ML. Именно этот фундамент позволяет бизнесу масштабировать решения на новые заводы и контуры без линейного роста затрат, а не плодить дорогие прототипы, умирающие при первом же изменении освещения на складе.