Миграция с OpenAI API на on-prem LLM: опыт и цифры

Зависимость от OpenAI API в корпоративном секторе сегодня — это халатность, за которую скоро начнут увольнять. Карты не проходят. Реселлеры режут лимиты подсанкционным компаниям. ФСТЭК и ИБ-директора требуют изолировать периметр, а отдел закупок физически не может легально провести зарубежный SaaS. Сидеть на этой пороховой бочке и ждать блокировки — управленческое самоубийство. Миграция с OpenAI API на on-prem LLM давно перестала быть абстрактным упражнением в суверенитете. Это вопрос выживания.

На бумаге замена облачного LLM на свой инференс выглядит как смена базового URL в клиенте. На практике это кровавая баня. Выясняется, что ваша архитектура — это просто тонкая обертка над неявными допущениями GPT-4. Уход с зарубежного ИИ-API 2026 года для многих станет моментом истины: придется учиться работать с моделями, а не дергать ручки.

Аудит иллюзий и перенос RAG в свой контур

Первое, что ломается при переезде — промпты. OpenAI прощает мусорные инструкции. Вы можете навалить в контекст простыню текста, сказать «сделай красиво», и GPT-4o вытащит смысл за счет гигантского объема параметров. Open-weights модели так не работают. Qwen 2.5 или Llama 3 требуют хирургической точности. Приходится переписывать промпты, вводить строгие few-shot примеры и форматировать системные инструкции под конкретные шаблоны (ChatML или Llama-3-Instruct). Иначе модель сыплется.

Дальше отваливаются эмбеддинги. Ваш RAG построен на text-embedding-3-small? Забудьте. API отдает векторы, но не отдает веса. Всю базу знаний придется переиндексировать. Мы обычно берем BGE-M3 или multilingual-E5-large. Это значит, что старый индекс летит в корзину, а сервер на несколько суток уходит в пересчет миллионов чанков. Затем нужно заново калибровать пороги отсечения (similarity thresholds) при поиске, потому что распределение косинусного расстояния у локальных моделей другое.

Самое больное — function-calling и структурированные форматы. Проприетарные модели выдрессированы выдавать идеальный JSON. Открытые модели периодически галлюцинируют ключами или забывают закрыть скобку. Наш подход в MoranaLabs: мы не пытаемся заставить 32B-модель быть умной «вообще». Мы выжигаем вариативность на уровне движка. Вместо того чтобы умолять LLM в промпте «ответь в JSON», мы используем guided decoding через vLLM или Outlines, навязывая генерации строгую грамматику. Железо не врет. Либо токен соответствует схеме, либо он отбрасывается. Это радикально повышает стабильность пайплайна.

Физика и экономика: цифры, которые не врут

Инференс на своих GPU — это суровая физика. KV-кэш жрет память, batching спасает throughput. Мы замеряли дельту на боевом golden set (задача извлечения фактов из юридических контрактов). Сравнивали GPT-4o mini и Qwen 2.5 32B (AWQ квантование) на ноде с 2x L40S.

Метрика	OpenAI API (GPT-4o mini)	On-prem (Qwen 2.5 32B + vLLM)
Latency (p50)	650 ms	480 ms
Latency (p95)	1.8 s (сетевые спайки)	590 ms
Throughput	Ограничен rate limits	~850 tokens/sec
Точность (Golden Set)	94.2%	92.8%
Стоимость 1M токенов	$0.15 (API)	$0.06 (амортизация + ЭЭ)

На p95 локальный инференс рвет облако в клочья. Никаких таймаутов Cloudflare, никаких необъяснимых задержек от OpenAI в часы пик. Вы контролируете железо — вы контролируете хвост распределения. Качество просело на полтора процента, но для бизнес-логики это оказалось некритично, а вот отсутствие утечки персональных данных за периметр сняло все вопросы от регуляторов.

Экономика работает просто. Железная нода с обвесом и контрактом на поддержку обойдется примерно в $2000-$3000 в месяц. Точка окупаемости лежит в районе 15-20 миллионов токенов в сутки. Если ваш продукт генерирует такой объем — железо отбивается за несколько месяцев. Если вы делаете три запроса в час — вам не нужен свой инференс.

Когда мигрировать рано

Уйти на on-prem — это не кнопку нажать. Это инфраструктура, мониторинг GPU, обновление весов и борьба с OOM-ошибками. Мы останавливаем клиентов от миграции, если видим следующие стоп-критерии:

Низкая утилизация железа: Поток запросов менее 1 млн токенов в день. GPU будет простаивать, обогревая серверную.
Сложный general reasoning: Задача требует уровня логики GPT-4 (например, написание сложного кода с нуля или многоступенчатые агентские цепочки без явного домена). Локальные 70B-модели хороши, но топовым проприетарным сетям в широкой эрудиции они пока уступают.
Отсутствие ИИ-инженеров: Поддерживать vLLM-кластер силами обычных сисадминов не выйдет. Нужна экспертиза.

Для всех остальных перенос RAG в изолированную среду — это неизбежный шаг взросления продукта. Защита данных, прогнозируемая латентность и независимость от настроения зарубежных корпораций стоят вложений в железо. Готовы перенести свои пайплайны на локальные рельсы — запускайте llm-rag-onprem.

Миграция с OpenAI API на on-prem LLM: war-story переноса инференса

Аудит иллюзий и перенос RAG в свой контур

Физика и экономика: цифры, которые не врут

Когда мигрировать рано

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

СБИС, Диадок, Контур или своя модель: чем отличается распознавание первички

Сколько стоит распознавание документов в 1С: считаем на 3000 накладных в месяц

Распознавание первичных документов в 1С: как перестать вбивать накладные руками

Опишите задачу — ответим как инженеры.