Кому принадлежит модель после AI-проекта: права и чек-лист

Крупный ритейлер заплатил шестьдесят миллионов рублей за предиктивную аналитику, получил API-доступ к инференсу, а через год решил сменить подрядчика. Выяснилось, что исходники, веса и пайплайны подготовки данных им не принадлежат, а исполнитель радостно выставил счет на X3 за «отчуждение прав». В MoranaLabs мы разворачиваем индустриальный ИИ: edge-вычисления, high-load инференс на железе клиента, reinforcement learning. Я вижу этот суицид корпоративных бюджетов каждый месяц. Если вы не понимаете, кому принадлежит модель и данные после AI-проекта: как не отдать подрядчику ключи от своего ИИ, вы просто спонсируете чужой R&D за свои деньги.

Иллюзий быть не должно. Вы не владеете нейросетью, пока не можете физически забрать веса, скрипты дата-инжиниринга, поднять инференс на полностью изолированном сервере и переобучить модель без единого звонка авторам. Все остальное — это аренда чужого черного ящика.

Если ваша задача — гарантированно слить проект, намертво привязать себя к одному вендору и потерять контроль над core-технологией, просто следуйте этому алгоритму.

Во-первых, никогда не открывайте Гражданский кодекс. По умолчанию, согласно ГК РФ, исключительные права на любой созданный объект интеллектуальной собственности остаются у исполнителя. Заказчики из госсектора и MOFU-сегмента обожают подписывать договоры на «оказание услуг по разработке». Услуга оказана, код написан. Чей он? Того, кто писал. Ваша формулировка в контракте должна звучать как железобетонная плита: отчуждение исключительных прав в полном объеме происходит автоматически в момент подписания акта и полной оплаты. Нет этой строчки — вы купили воздух.

Во-вторых, считайте, что машинное обучение — это просто кусок программного кода. Нейросеть — это комплексный объект. Он состоит из архитектуры, обученных весов, промежуточных чекпойнтов, пайплайна обработки признаков и самого обучающего датасета. Подрядчик передал вам репозиторий с архитектурой сети? Поздравляю, вы получили чертеж двигателя вместо машины. Без весов модель выдает белый шум. Без скриптов предобработки, где захардкожены пороги обрезки выбросов по 99-му перцентилю (p99), вы не сможете подать на вход продакшен-данные. Без промежуточных чекпойнтов любая деградация качества заставит вас обучать систему с нуля, сжигая тысячи GPU-часов.

Третий шаг к катастрофе — игнорировать лицензии базовых моделей и происхождение данных. Вы заказываете LLM под специфику вашего бизнеса. Подрядчик берет условную Llama, дообучает ее на ваших логах и сдает работу. Через полгода выясняется, что лицензия базовой модели или вшитый в пайплайн инференса кусок кода под AGPL обязывает вас открыть исходники всего вашего коммерческого бэкенда. Или еще хуже: подрядчик использовал производные данные (derivative data), сгенерированные GPT-4, для обучения вашей локальной модели. OpenAI в своих Terms of Service прямо запрещает использовать их аутпуты для тренировки конкурирующих алгоритмов. Подрядчик получил деньги и исчез, а ваш проприетарный ИИ стал бомбой замедленного действия, которую нельзя легально масштабировать. Права на дообученную поверх open-source модель — это минное поле, требующее жесткого аудита зависимостей.

Хотите самый изощренный vendor lock-in? Внедрите llm-rag-onprem без передачи прав на эрудицию модели. Подрядчик разворачивает вам RAG-систему (Retrieval-Augmented Generation) на ваших серверах. Корпоративная база знаний векторизуется, семантический поиск работает молниеносно. Но эмбеддинги (векторные представления текста) генерируются закрытой моделью исполнителя. Через год вы решаете сменить вендора. И тут выясняется, что без их эмбеддера вы не можете добавлять новые документы в базу. Старые векторы несовместимы с новой моделью. Вам придется переиндексировать миллионы документов с нуля, потому что ключи от векторного пространства остались в чужом кармане.

Как не отдать ключи от своего ИИ при приемке проекта

Приемка ML-проекта принципиально отличается от классической разработки. Вы не подписываете акт «система функционирует в соответствии с ТЗ». Акт приема-передачи должен фиксировать физическое отчуждение конкретных артефактов, без которых независимая эксплуатация невозможна.

Полный набор весов и финальные чекпойнты модели в открытых форматах (ONNX, Safetensors), а не в проприетарных бинарниках.
Обучающий датасет с разметкой, очищенный от мусора, на котором был получен заявленный в договоре скор.
Пайплайн данных: скрипты ETL, логика токенизации, аугментации и фильтрации.
Документация по воспроизведению обучения с нуля (reproducibility) с зафиксированными random seeds и версиями библиотек.

Будем честны: полная передача исключительных прав — это всегда дорого. Честный трейд-офф на рынке выглядит так: отчуждение прав стоит кратно дороже, чем неисключительная лицензия на использование. Подрядчик закладывает в эту цену упущенную выгоду от того, что не сможет перепродать этот же алгоритм или собранный пайплайн вашим прямым конкурентам. Если вам нужна просто автоматизация типовой рутины, и вы хотите сэкономить бюджет — берите лицензию, это адекватный бизнес-выбор. Но если нейросеть является core-компонентом вашего продукта и дает конкурентное преимущество, экономить на правах нельзя.

Бывают ситуации, когда полного отчуждения не требуется, но бизнесу нужна страховка от исчезновения вендора. В таких случаях спасает escrow исходного кода и весов. Все критичные артефакты загружаются в независимое хранилище. Если подрядчик банкротится, перестает выходить на связь или отказывается от поддержки SLA, ключи автоматически переходят к вам. Это рабочий компромисс, когда бюджет не позволяет выкупить исключительные права, но риски внезапной остановки продакшена неприемлемы.

В ML-инженерии нет магии, есть только математика, вычислительные мощности и грамотно составленные контракты. Если у вас нет прямого доступа к весам, обучающей выборке и пайплайну инференса, у вас нет ИИ-решения. У вас есть только номер телефона человека, который может выключить ваш бизнес рубильником в любую минуту.

Кому принадлежит модель и данные после AI-проекта: как не отдать подрядчику ключи от ИИ

Как не отдать ключи от своего ИИ при приемке проекта

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

СБИС, Диадок, Контур или своя модель: чем отличается распознавание первички

Сколько стоит распознавание документов в 1С: считаем на 3000 накладных в месяц

Распознавание первичных документов в 1С: как перестать вбивать накладные руками

Опишите задачу — ответим как инженеры.