Зависимость от OpenAI API в корпоративном секторе сегодня — это халатность, за которую скоро начнут увольнять. Карты не проходят. Реселлеры режут лимиты подсанкционным компаниям. ФСТЭК и ИБ-директора требуют изолировать периметр, а отдел закупок физически не может легально провести зарубежный SaaS. Сидеть на этой пороховой бочке и ждать блокировки — управленческое самоубийство. Миграция с OpenAI API на on-prem LLM давно перестала быть абстрактным упражнением в суверенитете. Это вопрос выживания.
На бумаге замена облачного LLM на свой инференс выглядит как смена базового URL в клиенте. На практике это кровавая баня. Выясняется, что ваша архитектура — это просто тонкая обёртка над неявными допущениями GPT-4. Уход с зарубежного ИИ-API 2026 года для многих станет моментом истины: придётся учиться работать с моделями, а не дёргать ручки.
Аудит иллюзий и перенос RAG в свой контур
Первое, что ломается при переезде — промпты. OpenAI прощает мусорные инструкции. Вы можете навалить в контекст простыню текста, сказать «сделай красиво», и GPT-4o вытащит смысл за счёт гигантского объема параметров. Open-weights модели так не работают. Qwen 2.5 или Llama 3 требуют хирургической точности. Приходится переписывать промпты, вводить строгие few-shot примеры и форматировать системные инструкции под конкретные шаблоны (ChatML или Llama-3-Instruct). Иначе модель сыплется.
Дальше отваливаются эмбеддинги. Ваш RAG построен на text-embedding-3-small? Забудьте. API отдаёт векторы, но не отдаёт веса. Всю базу знаний придётся переиндексировать. Мы обычно берем BGE-M3 или multilingual-E5-large. Это значит, что старый индекс летит в корзину, а сервер на несколько суток уходит в пересчет миллионов чанков. Затем нужно заново калибровать пороги отсечения (similarity thresholds) при поиске, потому что распределение косинусного расстояния у локальных моделей другое.
Самое больное — function-calling и структурированные форматы. Проприетарные модели выдрессированы выдавать идеальный JSON. Открытые модели периодически галлюцинируют ключами или забывают закрыть скобку. Наш подход в Morana Labs: мы не пытаемся заставить 32B-модель быть умной «вообще». Мы выжигаем вариативность на уровне движка. Вместо того чтобы умолять LLM в промпте «ответь в JSON», мы используем guided decoding через vLLM или Outlines, навязывая генерации строгую грамматику. Железо не врёт. Либо токен соответствует схеме, либо он отбрасывается. Это радикально повышает стабильность пайплайна.
Физика и экономика: цифры, которые не врут
Инференс на своих GPU — это суровая физика. KV-кэш жрёт память, batching спасает throughput. Мы замеряли дельту на боевом golden set (задача извлечения фактов из юридических контрактов). Сравнивали GPT-4o mini и Qwen 2.5 32B (AWQ квантование) на ноде с 2x L40S.
| Метрика | OpenAI API (GPT-4o mini) | On-prem (Qwen 2.5 32B + vLLM) |
|---|---|---|
| Latency (p50) | 650 ms | 480 ms |
| Latency (p95) | 1.8 s (сетевые спайки) | 590 ms |
| Throughput | Ограничен rate limits | ~850 tokens/sec |
| Точность (Golden Set) | 94.2% | 92.8% |
| Стоимость 1M токенов | $0.15 (API) | $0.06 (амортизация + ЭЭ) |
На p95 локальный инференс рвёт облако в клочья. Никаких таймаутов Cloudflare, никаких необъяснимых задержек от OpenAI в часы пик. Вы контролируете железо — вы контролируете хвост распределения. Качество просело на полтора процента, но для бизнес-логики это оказалось некритично, а вот отсутствие утечки персональных данных за периметр сняло все вопросы от регуляторов.
Экономика работает просто. Железная нода с обвесом и контрактом на поддержку обойдётся примерно в $2000-$3000 в месяц. Точка окупаемости лежит в районе 15-20 миллионов токенов в сутки. Если ваш продукт генерирует такой объем — железо отбивается за несколько месяцев. Если вы делаете три запроса в час — вам не нужен свой инференс.
Когда мигрировать рано
Уйти на on-prem — это не кнопку нажать. Это инфраструктура, мониторинг GPU, обновление весов и борьба с OOM-ошибками. Мы останавливаем клиентов от миграции, если видим следующие стоп-критерии:
- Низкая утилизация железа: Поток запросов менее 1 млн токенов в день. GPU будет простаивать, обогревая серверную.
- Сложный general reasoning: Задача требует уровня логики GPT-4 (например, написание сложного кода с нуля или многоступенчатые агентские цепочки без явного домена). Локальные 70B-модели хороши, но топовым проприетарным сетям в широкой эрудиции они пока уступают.
- Отсутствие ИИ-инженеров: Поддерживать vLLM-кластер силами обычных сисадминов не выйдет. Нужна экспертиза.
Для всех остальных перенос RAG в изолированную среду — это неизбежный шаг взросления продукта. Защита данных, прогнозируемая латентность и независимость от настроения зарубежных корпораций стоят вложений в железо. Готовы перенести свои пайплайны на локальные рельсы — запускайте llm-rag-onprem.