Как проверить AI-подрядчика: due diligence до подписания

В 83% случаев модель, выдающая 99% точности на тестовом датасете во время красивого пресейла, ломается на первой неделе реальной эксплуатации. Причина проста: бизнес покупает ноутбук дата-саентиста, а не работающую систему. Индустрия забита командами, которые умеют скачивать готовые веса из опенсорса и обучать YOLO на вылизанных картинках, но впадают в ступор при словах «деградация», «out-of-memory» или «асинхронный инференс». Миф о том, что удачный скрипт в тепличных условиях гарантирует успех на реальном железе, обходится корпорациям в миллионы выброшенных долларов. Именно поэтому вопрос, как проверить AI-подрядчика до подписания: due diligence на реальную экспертизу, а не на лендинг, должен решаться до любых разговоров об архитектуре нейросетей.

Технический due diligence: проверка боем, а не презентацией

Когда к нам в MoranaLabs приходят переделывать мертвые проекты за предыдущими интеграторами, я всегда смотрю не на метрики обученной сети, а на инфраструктуру вокруг нее.

Первый этап отсева — жесткий разбор аналогичного кейса из практики подрядчика. Запретите им говорить про количество слоев и трансформеры. Пусть покажут системные метрики до и после внедрения, а затем подробно опишут свой пайплайн MLOps. Спросите, как устроено версионирование данных и моделей в их стандартном стеке. Узнайте, как организован CI/CD контур для инференса на edge-устройствах или серверах. Потребуйте объяснить, что происходит, когда распределение входящих данных неизбежно меняется со временем, и как они детектируют этот дрейф. Если в ответ вы слышите пространные рассуждения о том, что они просто дообучат сеть по звонку, перед вами любители. Реальный продакшен требует автоматизированных графан с алертами на drift detection.

Демо на ноутбуке с батч-обработкой видеофайла не имеет ничего общего с потоковой нагрузкой. Когда нейросеть крутится локально, никто не считает накладные расходы на сериализацию тензоров или копирование памяти между CPU и GPU. В реальном цеху, где камеры отдают поток со скоростью 60 FPS, инференс ограничен жесткими таймингами. Просадка p99 latency на двадцать миллисекунд означает, что система пропустит бракованную деталь на конвейере.

# Если подрядчик не знает, как выглядит базовый мониторинг
# деградации модели под нагрузкой, он вам не нужен.
rules:
  - alert: ModelDataDriftDetected
    expr: sum(rate(seldon_model_score_drift_total[15m])) by (model_name) > 0.05
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Data drift threshold exceeded for {{ $labels.model_name }}"
      description: "Model input distribution shift detected. Retraining trigger required."

Это примитивный манифест Prometheus для отслеживания деградации предсказаний. Если ваш потенциальный партнер не может показать документацию по observability в своих прошлых проектах, вы просто оплачиваете их обучение на ваших ошибках.

Продолжайте задавать неудобные фильтрующие вопросы. Попросите рассказать о самом жестком инциденте в их проде и о том, как они его чинили. Тишина или рассказ о мелком баге в веб-интерфейсе — красный флаг. Настоящий high-load всегда кровоточит: падают воркеры из-за нехватки видеопамяти, отваливается брокер сообщений под спамом битых кадров, память течет из-за кривого биндинга C++ библиотек в питоне. Еще один стопроцентный маркер дилетантов — обещание заоблачной accuracy до получения доступа к вашим сырым данным. Профессионал закладывает бюджет на разметку грязи, требует анализа аномалий и никогда не отказывается от короткого оплачиваемого пилота с жесткой фиксацией бизнес-метрик.

Юридический каркас и цена дешевой разработки

Вторая иллюзия заказчиков — вера в то, что технической компетенции достаточно для безопасного партнерства. Юридическая и финансовая надежность подрядчика в AI-проектах критичнее, чем при заказной веб-разработке. Веб-сайт можно передать другой команде за неделю, обученную модель без инфраструктуры — никогда.

Требуйте передачи исключительных прав не только на исходный код инференса и финальные веса модели. Модели устаревают, поэтому реальный капитал — это пайплайны подготовки данных, скрипты очистки, конфигурации экспериментов и логика аугментаций. Если подрядчик обанкротится, команда распадется или интегратор решит выкрутить вам руки стоимостью поддержки, у вас на серверах должен остаться воспроизводимый от А до Я процесс, а не черный ящик с чужим API-ключом. Практика escrow, когда критичные артефакты и кодовая база депонируются у независимой третьей стороны до завершения оплат и нагрузочных тестов, спасла множество enterprise-проектов от катастрофы.

Здесь мы упираемся в суровую экономику. Топовая экспертиза стоит дорого, и к профильным AI-командам всегда выстраивается очередь. Дешевый подрядчик с мгновенной доступностью — это гарантированный риск переделки всей системной архитектуры с нуля через полгода эксплуатации. Нанимая интегратора, вы покупаете инженерную культуру и выстроенный фундамент production ML. Именно этот фундамент позволяет бизнесу масштабировать решения на новые заводы и контуры без линейного роста затрат, а не плодить дорогие прототипы, умирающие при первом же изменении освещения на складе.

Как проверить AI-подрядчика до подписания: due diligence на реальную экспертизу, а не на лендинг

Технический due diligence: проверка боем, а не презентацией

Юридический каркас и цена дешевой разработки

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

СБИС, Диадок, Контур или своя модель: чем отличается распознавание первички

Сколько стоит распознавание документов в 1С: считаем на 3000 накладных в месяц

Распознавание первичных документов в 1С: как перестать вбивать накладные руками

Опишите задачу — ответим как инженеры.