Инкрементальное обновление эмбеддингов RAG: подход on-prem

Если ваш пайплайн обновления базы знаний начинается с команды collection.drop(), вы не строите корпоративный ИИ — вы просто отапливаете улицу видеокартами за счет работодателя. В 2026 году инкрементальное обновление эмбеддингов RAG: как не гонять full reindex миллиона векторов при каждом апдейте — это не вопрос изящной архитектуры. Это базовый гигиенический минимум выживания в on-premise контуре.

Суровая реальность энтерпрайза проста: 152-ФЗ, данные не уходят в облако, у вас в стойке торчит пара дефицитных Tesla T4 или, если повезло, одна A100, попиленная через MIG на всех исследователей компании. Документы при этом меняются ежедневно. Редактируются регламенты, обновляются базы знаний, дописываются логи.

Как делает типичный мидл, насмотревшийся базовых туториалов? Пишет скрипт, который каждую ночь выгребает все файлы, режет их на чанки, прогоняет через эмбеддер и заливает в пустую векторную базу.

На объеме в 1–5 миллионов векторов эта наивная схема ломается с громким хрустом. Считаем математику. Пять миллионов чанков. Относительно легкая модель вроде intfloat/multilingual-e5-large. При батче в 32 и нормальной утилизации карточки это займет от 3 до 5 часов чистого инференса.

Пять часов ваша дефицитная GPU занята тем, что пережевывает тексты, 99% которых не изменились ни на букву.

Все это время RAG-ассистент лежит или ищет по вчерашней базе, а ИТ-директор смотрит на графики загрузки железа и задает неудобные вопросы про окупаемость AI-инициативы. Платить за инференс того, что уже было вычислено вчера — преступление против инфраструктуры.

Единственный инженерно грамотный подход — детекция изменений на уровне каждого отдельного фрагмента текста. Не документа целиком, а именно чанка. Схема работает так: при парсинге каждый чанк получает детерминированный ID. Это не автоинкремент из СУБД и не случайный UUID. Это криптографический хеш от связки сырого текста и критичных метаданных.

import hashlib
from typing import List, Dict, Set

def get_chunk_signature(doc_id: str, chunk_text: str, version: str) -> str:
    # Детерминированный ID гарантирует, что неизмененный текст 
    # всегда сгенерирует один и тот же идентификатор
    payload = f"{doc_id}::{chunk_text}::{version}"
    return hashlib.sha256(payload.encode('utf-8')).hexdigest()

def compute_upsert_diff(existing_ids: Set[str], new_chunks: Dict[str, dict]):
    new_ids = set(new_chunks.keys())
    
    to_insert = new_ids - existing_ids
    to_delete = existing_ids - new_ids
    to_keep = existing_ids & new_ids
    
    return to_insert, to_delete, to_keep

Этот простейший механизм дает абсолютную идемпотентность. Если два воркера параллельно схватят один и тот же документ, они сгенерируют одинаковые ID. Qdrant, Milvus или Pgvector просто перезапишут вектор поверх существующего (или проигнорируют конфликт) — никакого дублирования. Дедупликация работает из коробки.

Обновление RAG без полной переиндексации перестает быть проблемой. Наивный upsert Qdrant через LangChain заменяется на точечную отправку в эмбеддер только того массива to_insert, который реально изменился.

Здесь кроется важный архитектурный нюанс: проблема сдвига границ. Если вы используете рекурсивный сплиттер фиксированной длины и кто-то вставит запятую в первый абзац стостраничного регламента, все последующие границы чанков съедут. Поменяются все хеши, и система погонит на пересчет весь документ. Поэтому инкрементальный апдейт работает в полную силу только в связке со структурным чанкингом — когда вы бьете текст по Markdown-заголовкам, абзацам или XML-тегам. Запятая в первом абзаце должна изменить хеш только первого абзаца.

Старые данные тоже нужно убирать. Если документ сократили, старые чанки с их старыми хешами повиснут мертвым грузом и начнут отравлять поисковую выдачу контекстным мусором. Массив to_delete из нашего диффа отправляется прямиком в векторную базу на удаление. В зависимости от политик безопасности это может быть soft-delete с обновлением payload-флага is_active=false или жесткий drop векторов по ID.

Помню, когда мы в MoranaLabs катили внутреннюю базу знаний для металлургического комбината, изначальная переиндексация 3.5 миллионов чанков на их железе занимала 9 часов. После перехода на инкрементальный upsert с хешированием контента ночной апдейт стал укладываться в 45 секунд. Время работы GPU сократилось в 700 раз, простой ассистента исчез как класс.

Но хеши не спасут, если вы решили сменить саму модель эмбеддера.

Переход с e5-base на e5-large или на кастомную дообученную модель меняет саму структуру векторного пространства. Размерность другая, семантика другая, дистанции между точками считаются иначе. Инкрементально обновить тут ничего нельзя. Старые и новые векторы физически не могут жить в одном поисковом индексе.

Наивный подход: убить старую коллекцию, поднять новую и запустить пересчет. Результат — система ложится на сутки, бизнес в ярости. Переиндексация векторной базы без downtime требует классического blue-green deployment на уровне коллекций СУБД.

Вам нужна вторая, полностью независимая коллекция и система алиасов. Боевой трафик всегда читает из алиаса, а не из физического имени таблицы. Когда стартует смена модели эмбеддера без простоя, бэкофис поднимает новую структуру kb_v2 и начинает фоновый backfill исторических данных.

Этот процесс идет батчами с жестким лимитом на RPS. Вы не имеете права выжрать весь IOPS дисков и убить latency боевого поиска, который продолжает идти в старую модель и старую базу kb_v1. Бэч-процессинг должен мониторить метрики СУБД и троттлить сам себя при скачках нагрузки от пользователей.

Как только исторический backfill завершен, алгоритм атомарного переключения выглядит так:

Приостанавливаем консьюмеры очереди инкрементальных апдейтов (Kafka/RabbitMQ), накапливая новые изменения в топике.
Синхронизируем хвост последних изменений, которые успели прилететь во время backfill'а, записывая их уже в обе коллекции (dual-write).
Единой атомарной транзакцией (например, через UpdateAliases в Qdrant) переключаем алиас knowledge_base с kb_v1 на kb_v2.
Снимаем паузу с консьюмеров — теперь свежие апдейты идут только через новую модель в новую базу.
Через несколько дней, убедившись, что метрики качества поиска (NDCG/MRR) не просели и откатываться не нужно, физически удаляем коллекцию v1.

Пользователи не замечают ничего, кроме того, что поиск внезапно стал точнее. Никаких ночных регламентных работ, никаких заглушек «Система обновляется».

Индустриальный ИИ не терпит детских болезней. То, что прощалось пет-проектам в 2023 году, сегодня убивает бюджеты и срывает SLA. Векторные базы давно обросли взрослым инструментарием: атомарные алиасы, шардирование, версионирование payload. Проблема только в том, что пайплайны подготовки данных во многих компаниях до сих пор работают по логике одноразовых Jupyter-ноутбуков.

Архитектура, в которой данные обновляются точечно, железо используется эффективно, а миграции проходят незаметно — это не rocket science, это просто нормальная инженерия. Проектирование таких отказоустойчивых векторных контуров и RAG on-prem — то, чем мы ежедневно занимаемся в MoranaLabs. Перестаньте греть видеокарты пересчетом одних и тех же слов.

Инкрементальное обновление эмбеддингов RAG: как не гонять full reindex миллиона векторов при каждом апдейте

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

СБИС, Диадок, Контур или своя модель: чем отличается распознавание первички

Сколько стоит распознавание документов в 1С: считаем на 3000 накладных в месяц

Распознавание первичных документов в 1С: как перестать вбивать накладные руками

Опишите задачу — ответим как инженеры.