85% текущих open-source ML-моделей, крутящихся в контурах российского энтерпрайза, превратятся в нелегальные бинарники для критической информационной инфраструктуры (КИИ) через два года. Иллюзий быть не должно. Когда вступит в силу закон об ИИ в России 2026, привычный пайплайн «скачал веса с HuggingFace, дообучил, завернул в Docker и выкатил в прод» станет юридически ничтожным для госсектора, банков и телекома.
Регулятор не просто требует локализации серверов. Он требует прозрачности математического чёрного ящика. Наш подход в Morana Labs к таким задачам прагматичен: мы строим on-prem AI системы изначально с прицелом на требования к доверенным моделям. Данные физически не покидают периметр, а происхождение каждого тензора документируется на уровне конвейера. Это не паранойя. Это единственный способ выжить, когда к вам придут с аудитом по новым ГОСТ Р.
Закон об ИИ в России 2026: суверенные и национальные модели под капотом
Законопроект бьёт по самому больному — по происхождению весов и обучающих выборок. До сих пор рынок жил в комфортной парадигме трансферного обучения: берём чужой фундамент, тюним под себя, продаём как свой. Теперь модели жёстко делятся на две юридические категории.
Национальная модель — это легализованный компромисс. Вы имеете право взять открытую архитектуру, использовать зарубежный open-source (например, Llama 3, Qwen или Mistral), дообучить их на своих корпоративных данных и развернуть в закрытом контуре. Для рядового B2B, логистики или внутреннего финтеха, не трогающего ядро процессинга, этого пока хватает. Инфраструктура ваша, железо ваше, но математика частично заимствована.
Суверенная модель — это хардкор и абсолютная автономия. Разработка ведётся строго на территории РФ. Датасеты не просто собраны в России — они размечены локальными специалистами, очищены и прогнаны через строгие фильтры на отсутствие закладок (backdoors). Никакого внешнего open-source в фундаментальных весах. Вы не можете взять готовую нейросеть и назвать её суверенной. Обучение идёт с нуля на отечественных или доверенных физически изолированных кластерах. Трейд-офф предельно жёсткий: суверенная модель обходится кратно дороже, сжирает колоссальные бюджеты на GPU-часы и требует в десятки раз больше времени на R&D. Но только она гарантированно проходит закупки госсектора и внедряется в ядро КИИ без риска отзыва лицензий.
Разница кроется в доказательной базе отсутствия недокументированных возможностей (НДВ). Вы не можете прогнать классический статический анализатор кода по миллиардам параметров и сказать: «Тут безопасно». Инструменты ИБ на матрицах не работают. Поэтому доверие строится на тотальном контроле всего жизненного цикла обучения.
model_provenance_manifest:
version: "1.0.0"
artifact_id: "morana-ru-llm-7b-v2"
classification: "sovereign"
training_environment:
cluster_zone: "ru-central-airgapped"
framework: "pytorch-trusted-build-2.0"
network_isolation: strict
datasets:
- name: "ru-corp-financial-clean"
origin_geo: "RU"
dvc_hash: "sha256:8f4343d...a9b"
poisoning_check_passed: true
certification_status:
gost_r_compliant: true
fstec_profile: "ai-trusted-level-3"
sbof_generated: trueЭтот манифест — будущая реальность CI/CD линий сборки ML-моделей. Без подобных артефактов аттестацию не пройти. Система добровольной сертификации от Росстандарта и ВШЭ уже обкатывает методологию на пилотах. Но добровольность — это иллюзия переходного периода. Дальше включается жёсткая регуляторика.
Обязательная сертификация в ФСТЭК и ФСБ: что делать бизнесу уже сейчас
Для КИИ обязательная сертификация в ФСТЭК и ФСБ станет бетонным барьером. Аудиторы будут смотреть не на F1-score или скорость инференса. Их интересует защита от атак на отравление данных (Data Poisoning), стойкость к состязательным атакам (Adversarial Attacks) и изоляция среды исполнения.
Что необходимо закладывать в ИТ-архитектуру и договоры с вендорами прямо сейчас, чтобы не списывать миллионы в убыток в 2026 году?
- Сквозное версионирование данных (Data Provenance): Внедряйте инструменты с криптографической подписью каждого среза датасета. Если вы не можете документально доказать, откуда взялся каждый гигабайт обучающей выборки и кто имел к нему доступ, модель никогда не получит статус суверенной.
- Отчуждаемость в контрактах: Требуйте от подрядчиков передачи не только финальных весов формата .safetensors. Вам нужны исходные скрипты очистки данных, гиперпараметры, seed-значения и веса промежуточных чекпоинтов. Иначе независимый ИБ-аудит просто развернёт систему.
- Изоляция графа вычислений: Инференс обязан работать в доверенной среде (TEE) или на физически изолированных edge-ускорителях. Среда должна быть аппаратно заблокирована от любых подгрузок токенизаторов или конфигураций из глобальной сети в рантайме.
- Билды из исходников и патчинг: Текущий ML-стек — это решето. Библиотеки тянут за собой сотни CVE. Ваш пайплайн должен резать сборку при обнаружении критических уязвимостей в Python-пакетах ещё до деплоя в прод.
Наш подход в Morana Labs полностью исключает загрузку чужих бинарников «вслепую». Мы собираем инференс-движки из проверенных исходников, фиксируем хэши, компилируем под конкретное железо клиента и прогоняем исполняемый код через песочницы. Да, это замедляет time-to-market. Вы тратите больше ресурсов на SecOps. Но когда завтра ваша ИБ-система с машинным обучением потребует аттестации, вы просто отдадите аудиторам готовые логи сборки и SBOM (Software Bill of Materials). Конкуренты в это время будут панически пытаться вспомнить, на чьих серверах они фильтровали датасет.
Рынок энтерпрайз-ИИ скоро перевернётся. Те, кто сегодня штампует легковесные обёртки над API или тащит в контур веса непонятного происхождения, останутся в серой зоне малого бизнеса. Крупные игроки и госсектор неизбежно перейдут на доверенный машинный интеллект. Выбор прост: строить дорогой, но легитимный суверенный фундамент сейчас или гарантированно терять контракты через пару лет.