Вы смотрите в архитектурный драфт, где тяжеловесный ETL-инструмент тянет логи из Kafka, пачка регулярных выражений вытаскивает ФИО, а результат падает в плоскую реляционную таблицу. Это не архитектура. Это братская могила данных.
Мы в Morana Labs годами разворачиваем индастриал-ИИ, edge-вычисления, reinforcement learning и хардкорный инференс строго на железе клиента, без выходов в облака. И я регулярно вижу, как CISO или CDO энтерпрайза пытаются решить задачу связности сущностей после ухода западных вендоров. Замена Palantir на open-source — это не просто скачивание пары модных библиотек. Это боль, кровь и построение жесткой онтологии.
«Palantir Gotham пилили тысячи инженеров годами. Вы предлагаете заменить его зоопарком из бесплатных утилит и самописных скриптов. Оно развалится при первом же комплексном расследовании, когда аналитик запросит пересечение транзакций и уголовных дел».
Отчасти вы правы. Gotham великолепен тем, что даёт готовую онтологию. В нём транзакции, КИИ-события, логи доступов и разрозненные PDF-документы сливаются в единый граф связей. Из коробки. Там же лежит подсистема расследований с жестким аудит-следом. Но в 2026 году SaaS-аналоги — это чужой периметр, а 152-ФЗ, ФСТЭК и гостайна требуют изоляции. Вам нужна суверенная платформа расследований, импортозамещение и работоспособность на железе внутри контура. Строить придётся самим.
Анатомия суверенного data-fusion
Снимаем магию. Под капотом качественный link analysis без Palantir — это правильная база, гибридный поиск и суровый движок резолюции сущностей. Граф-БД выступает фундаментом. Neo4j Community Edition хорош для быстрого старта и красивых демок, но он задохнётся на масштабах среднего госбанка. Для серьёзного on-prem data-fusion мы берём JanusGraph поверх Cassandra или ScyllaDB — это масштабируется линейно, пока у вас не кончатся стойки. Если нужен реалтайм в памяти — смотрим на Memgraph.
Гибридный поиск собирается из Qdrant или pgvector в связке с классическим BM25. Вы ищете не просто точное совпадение слов в поле имени, вы ищете семантический смысл в тысячах отсканированных страниц дел, рапортов и логов.
«Ваш хвалёный ИИ склеит слесаря Иванова И.И. и гендиректора Иванова И.И. в одного узлового человека на графе. Безопасники придут не за тем. И кто ответит за ложноположительные срабатывания?»
Никто в здравом уме не использует голые нейросети для принятия финальных решений в комплаенсе. Роль ИИ здесь строго утилитарна. Это NER (Named Entity Recognition) и entity resolution из сырого текста, поиск скрытых аномалий на графе и семантический поиск по делу вместо тупого фильтра. Нейросеть извлекает факты. Жесткая детерминированная эвристика их валидирует.
Деградация графа и аудит под ФСТЭК
Именно здесь ломаются зубы большинства интеграторов. Вытащить граф связей и data fusion on-prem — это половина дела. По мере роста ваша система неминуемо упрётся в грабли. Я выделяю три смертельные проблемы таких архитектур:
- Entity resolution и дубли. Качество склейки. Если ваш алгоритм промахивается на 2%, на графе в 10 миллионов узлов вы получите непроходимый лес ложных связей. Векторные эмбеддинги помогают, но не спасают от грязных данных.
- Деградация на 100M+ рёбер. Глубокий обход (deep traversal) больше чем на три-четыре прыжка (hop) повесит базу наглухо. Без предагрегации подграфов система встанет.
- ABAC на уровне узлов. ФСТЭК требует мандатного доступа: кто и когда смотрел конкретную транзакцию. В реляционках вешается Row-Level Security. В графах фильтрация прав на лету при обходе рушит производительность до нуля.
Архитектура за периметром требует абсолютной изоляции. Журнал доступа не должен писаться в ту же базу графа. Он пишется в отдельный неизменяемый append-only лог, который оркестратор тут же отгружает в корпоративный SIEM.
«В итоге мы получаем самопил, который требует штата в 50 дата-инженеров для поддержки, а UI всё равно выглядит как консоль из девяностых».
Именно. Границы честно: open-source не даст вам красивого, вылизанного интерфейса детектива в духе голливудских фильмов. Ни завтра, ни через год. Это означает совершенно другой бюджет и сдвиг сроков. Вам придётся писать фронтенд для аналитиков безопасности с нуля или мучительно дорабатывать сырые визуализаторы.
Таблица ниже — суровая реальность того, с чем придётся работать.
| Слой | Open-source компонент | Зрелость (prod/beta/самопил) |
|---|---|---|
| СУБД Графов | JanusGraph, Memgraph, Neo4j CE | Prod |
| Векторный поиск | Qdrant, pgvector | Prod |
| Entity Resolution | ML-пайплайны на Transformers | Самопил |
| Оркестрация | Apache Airflow, Dagster | Prod |
| Аудит и ABAC | OPA (Open Policy Agent) + шлюз | Beta / Самопил |
Но базовая математика, хранение и поиск при такой архитектуре будут работать как часы. Суверенная платформа расследований собирается руками тех, кто понимает, как данные физически ложатся на диск, и где процессор ждет память. Иллюзии тут стоят очень дорого.
Если задача стоит остро, старая самописка трещит по швам, а вы готовы смотреть на вещи технически — приходите в Morana Labs. Делаем пилот семантического и граф-поиска по сущностям на нашей услуге vector-search. Разберём вашу онтологию, соберём граф и покажем реальный throughput на вашем железе. Без булшита.