Аналог Palantir на open-source: data-fusion и графы on-prem

Вы смотрите в архитектурный драфт, где тяжеловесный ETL-инструмент тянет логи из Kafka, пачка регулярных выражений вытаскивает ФИО, а результат падает в плоскую реляционную таблицу. Это не архитектура. Это братская могила данных.

Мы в MoranaLabs годами разворачиваем индастриал-ИИ, edge-вычисления, reinforcement learning и хардкорный инференс строго на железе клиента, без выходов в облака. И я регулярно вижу, как CISO или CDO энтерпрайза пытаются решить задачу связности сущностей после ухода западных вендоров. Замена Palantir на open-source — это не просто скачивание пары модных библиотек. Это боль, кровь и построение жесткой онтологии.

«Palantir Gotham пилили тысячи инженеров годами. Вы предлагаете заменить его зоопарком из бесплатных утилит и самописных скриптов. Оно развалится при первом же комплексном расследовании, когда аналитик запросит пересечение транзакций и уголовных дел».

Отчасти вы правы. Gotham великолепен тем, что дает готовую онтологию. В нем транзакции, КИИ-события, логи доступов и разрозненные PDF-документы сливаются в единый граф связей. Из коробки. Там же лежит подсистема расследований с жестким аудит-следом. Но в 2026 году SaaS-аналоги — это чужой периметр, а 152-ФЗ, ФСТЭК и гостайна требуют изоляции. Вам нужна суверенная платформа расследований, импортозамещение и работоспособность на железе внутри контура. Строить придется самим.

Анатомия суверенного data-fusion

Снимаем магию. Под капотом качественный link analysis без Palantir — это правильная база, гибридный поиск и суровый движок резолюции сущностей. Граф-БД выступает фундаментом. Neo4j Community Edition хорош для быстрого старта и красивых демок, но он задохнется на масштабах среднего госбанка. Для серьезного on-prem data-fusion мы берем JanusGraph поверх Cassandra или ScyllaDB — это масштабируется линейно, пока у вас не кончатся стойки. Если нужен реалтайм в памяти — смотрим на Memgraph.

Гибридный поиск собирается из Qdrant или pgvector в связке с классическим BM25. Вы ищете не просто точное совпадение слов в поле имени, вы ищете семантический смысл в тысячах отсканированных страниц дел, рапортов и логов.

«Ваш хваленый ИИ склеит слесаря Иванова И.И. и гендиректора Иванова И.И. в одного узлового человека на графе. Безопасники придут не за тем. И кто ответит за ложноположительные срабатывания?»

Никто в здравом уме не использует голые нейросети для принятия финальных решений в комплаенсе. Роль ИИ здесь строго утилитарна. Это NER (Named Entity Recognition) и entity resolution из сырого текста, поиск скрытых аномалий на графе и семантический поиск по делу вместо тупого фильтра. Нейросеть извлекает факты. Жесткая детерминированная эвристика их валидирует.

Деградация графа и аудит под ФСТЭК

Именно здесь ломаются зубы большинства интеграторов. Вытащить граф связей и data fusion on-prem — это половина дела. По мере роста ваша система неминуемо упрется в грабли. Я выделяю три смертельные проблемы таких архитектур:

Entity resolution и дубли. Качество склейки. Если ваш алгоритм промахивается на 2%, на графе в 10 миллионов узлов вы получите непроходимый лес ложных связей. Векторные эмбеддинги помогают, но не спасают от грязных данных.
Деградация на 100M+ ребер. Глубокий обход (deep traversal) больше чем на три-четыре прыжка (hop) повесит базу наглухо. Без предагрегации подграфов система встанет.
ABAC на уровне узлов. ФСТЭК требует мандатного доступа: кто и когда смотрел конкретную транзакцию. В реляционках вешается Row-Level Security. В графах фильтрация прав на лету при обходе рушит производительность до нуля.

Архитектура за периметром требует абсолютной изоляции. Журнал доступа не должен писаться в ту же базу графа. Он пишется в отдельный неизменяемый append-only лог, который оркестратор тут же отгружает в корпоративный SIEM.

«В итоге мы получаем самопил, который требует штата в 50 дата-инженеров для поддержки, а UI все равно выглядит как консоль из девяностых».

Именно. Границы честно: open-source не даст вам красивого, вылизанного интерфейса детектива в духе голливудских фильмов. Ни завтра, ни через год. Это означает совершенно другой бюджет и сдвиг сроков. Вам придется писать фронтенд для аналитиков безопасности с нуля или мучительно дорабатывать сырые визуализаторы.

Таблица ниже — суровая реальность того, с чем придется работать.

Слой	Open-source компонент	Зрелость (prod/beta/самопил)
СУБД Графов	JanusGraph, Memgraph, Neo4j CE	Prod
Векторный поиск	Qdrant, pgvector	Prod
Entity Resolution	ML-пайплайны на Transformers	Самопил
Оркестрация	Apache Airflow, Dagster	Prod
Аудит и ABAC	OPA (Open Policy Agent) + шлюз	Beta / Самопил

Но базовая математика, хранение и поиск при такой архитектуре будут работать как часы. Суверенная платформа расследований собирается руками тех, кто понимает, как данные физически ложатся на диск, и где процессор ждет память. Иллюзии тут стоят очень дорого.

Если задача стоит остро, старая самописка трещит по швам, а вы готовы смотреть на вещи технически — приходите в MoranaLabs. Делаем пилот семантического и граф-поиска по сущностям на нашей услуге vector-search. Разберем вашу онтологию, соберем граф и покажем реальный throughput на вашем железе. Без булшита.

Замена Palantir на open-source: платформа расследований и data-fusion за периметром

Анатомия суверенного data-fusion

Деградация графа и аудит под ФСТЭК

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

Сверка двух документов: почему это не diff, а задача сопоставления

ИИ в 1С:ERP и УНФ: чем отличается внедрение на разных конфигурациях

Локальная LLM для 1С: когда нельзя в облако

Опишите задачу — ответим как инженеры.