Крупный ритейлер заплатил шестьдесят миллионов рублей за предиктивную аналитику, получил API-доступ к инференсу, а через год решил сменить подрядчика. Выяснилось, что исходники, веса и пайплайны подготовки данных им не принадлежат, а исполнитель радостно выставил счет на X3 за «отчуждение прав». В Morana Labs мы разворачиваем индустриальный ИИ: edge-вычисления, high-load инференс на железе клиента, reinforcement learning. Я вижу этот суицид корпоративных бюджетов каждый месяц. Если вы не понимаете, кому принадлежит модель и данные после AI-проекта: как не отдать подрядчику ключи от своего ИИ, вы просто спонсируете чужой R&D за свои деньги.
Иллюзий быть не должно. Вы не владеете нейросетью, пока не можете физически забрать веса, скрипты дата-инжиниринга, поднять инференс на полностью изолированном сервере и переобучить модель без единого звонка авторам. Всё остальное — это аренда чужого черного ящика.
Если ваша задача — гарантированно слить проект, намертво привязать себя к одному вендору и потерять контроль над core-технологией, просто следуйте этому алгоритму.
Во-первых, никогда не открывайте Гражданский кодекс. По умолчанию, согласно ГК РФ, исключительные права на любой созданный объект интеллектуальной собственности остаются у исполнителя. Заказчики из госсектора и MOFU-сегмента обожают подписывать договоры на «оказание услуг по разработке». Услуга оказана, код написан. Чей он? Того, кто писал. Ваша формулировка в контракте должна звучать как железобетонная плита: отчуждение исключительных прав в полном объеме происходит автоматически в момент подписания акта и полной оплаты. Нет этой строчки — вы купили воздух.
Во-вторых, считайте, что машинное обучение — это просто кусок программного кода. Нейросеть — это комплексный объект. Он состоит из архитектуры, обученных весов, промежуточных чекпойнтов, пайплайна обработки признаков и самого обучающего датасета. Подрядчик передал вам репозиторий с архитектурой сети? Поздравляю, вы получили чертеж двигателя вместо машины. Без весов модель выдает белый шум. Без скриптов предобработки, где захардкожены пороги обрезки выбросов по 99-му перцентилю (p99), вы не сможете подать на вход продакшен-данные. Без промежуточных чекпойнтов любая деградация качества заставит вас обучать систему с нуля, сжигая тысячи GPU-часов.
Третий шаг к катастрофе — игнорировать лицензии базовых моделей и происхождение данных. Вы заказываете LLM под специфику вашего бизнеса. Подрядчик берет условную Llama, дообучает ее на ваших логах и сдает работу. Через полгода выясняется, что лицензия базовой модели или вшитый в пайплайн инференса кусок кода под AGPL обязывает вас открыть исходники всего вашего коммерческого бэкенда. Или еще хуже: подрядчик использовал производные данные (derivative data), сгенерированные GPT-4, для обучения вашей локальной модели. OpenAI в своих Terms of Service прямо запрещает использовать их аутпуты для тренировки конкурирующих алгоритмов. Подрядчик получил деньги и исчез, а ваш проприетарный ИИ стал бомбой замедленного действия, которую нельзя легально масштабировать. Права на дообученную поверх open-source модель — это минное поле, требующее жесткого аудита зависимостей.
Хотите самый изощренный vendor lock-in? Внедрите llm-rag-onprem без передачи прав на эрудицию модели. Подрядчик разворачивает вам RAG-систему (Retrieval-Augmented Generation) на ваших серверах. Корпоративная база знаний векторизуется, семантический поиск работает молниеносно. Но эмбеддинги (векторные представления текста) генерируются закрытой моделью исполнителя. Через год вы решаете сменить вендора. И тут выясняется, что без их эмбеддера вы не можете добавлять новые документы в базу. Старые векторы несовместимы с новой моделью. Вам придется переиндексировать миллионы документов с нуля, потому что ключи от векторного пространства остались в чужом кармане.
Как не отдать ключи от своего ИИ при приемке проекта
Приемка ML-проекта принципиально отличается от классической разработки. Вы не подписываете акт «система функционирует в соответствии с ТЗ». Акт приема-передачи должен фиксировать физическое отчуждение конкретных артефактов, без которых независимая эксплуатация невозможна.
- Полный набор весов и финальные чекпойнты модели в открытых форматах (ONNX, Safetensors), а не в проприетарных бинарниках.
- Обучающий датасет с разметкой, очищенный от мусора, на котором был получен заявленный в договоре скор.
- Пайплайн данных: скрипты ETL, логика токенизации, аугментации и фильтрации.
- Документация по воспроизведению обучения с нуля (reproducibility) с зафиксированными random seeds и версиями библиотек.
Будем честны: полная передача исключительных прав — это всегда дорого. Честный трейд-офф на рынке выглядит так: отчуждение прав стоит кратно дороже, чем неисключительная лицензия на использование. Подрядчик закладывает в эту цену упущенную выгоду от того, что не сможет перепродать этот же алгоритм или собранный пайплайн вашим прямым конкурентам. Если вам нужна просто автоматизация типовой рутины, и вы хотите сэкономить бюджет — берите лицензию, это адекватный бизнес-выбор. Но если нейросеть является core-компонентом вашего продукта и дает конкурентное преимущество, экономить на правах нельзя.
Бывают ситуации, когда полного отчуждения не требуется, но бизнесу нужна страховка от исчезновения вендора. В таких случаях спасает escrow исходного кода и весов. Все критичные артефакты загружаются в независимое хранилище. Если подрядчик банкротится, перестает выходить на связь или отказывается от поддержки SLA, ключи автоматически переходят к вам. Это рабочий компромисс, когда бюджет не позволяет выкупить исключительные права, но риски внезапной остановки продакшена неприемлемы.
В ML-инженерии нет магии, есть только математика, вычислительные мощности и грамотно составленные контракты. Если у вас нет прямого доступа к весам, обучающей выборке и пайплайну инференса, у вас нет ИИ-решения. У вас есть только номер телефона человека, который может выключить ваш бизнес рубильником в любую минуту.