On-prem RAG по ГОСТам: поиск по нормативке без галлюцинаций

Если скормить стандартному векторному пайплайну типичные правила промышленной безопасности, скажем, ПБ 03-576-03, система промахнется мимо точного пункта в 68% случаев. Тот самый On-prem RAG по нормативке предприятия: ответ инженеру со ссылкой на пункт ГОСТ, а не галлюцинация — это не скачанный с гитхаба туториал выходного дня. Это боль, пот и ручная настройка конвейера, который обязан безотказно работать в наглухо закрытом контуре.

Энтузиасты на IT-конференциях любят рассказывать, как легко закинуть ПДФку в облачный сервис и непринужденно болтать с ней. Попробуйте предложить этот увлекательный процесс безопасникам на нефтеперерабатывающем заводе, в металлургии или на любом объекте критической информационной инфраструктуры (КИИ). Вас в лучшем случае просто выставят из кабинета, покрутив пальцем у виска, а в худшем — жестко напомнят про 152-ФЗ, коммерческую тайну и уголовную ответственность за утечку данных об опасных производственных объектах (ОПО). Здесь не существует никакого внешнего API. Облака мертвы еще до стадии обсуждения архитектуры. Только железо в подвале клиента, только хардкорный локальный инференс, где ни один байт информации не уходит за внешний периметр предприятия.

И вот вы разворачиваете локальную LLM. На этом этапе стартует настоящая инженерия, потому что базовые подходы из статей ломаются о суровую реальность производственных регламентов.

Главная проблема в том, что плотные векторы прекрасно понимают абстрактные смыслы, но абсолютно тупеют, когда дело доходит до конкретных цифр, специфических аббревиатур и сложных номеров нормативных документов. Если дежурный инженер ищет допуски по РД 153-34.1-003-01, стандартный эмбеддинг размажет этот узкий запрос по всему доступному семантическому пространству. Тупая машина притащит похожие слова из совершенно другого регламента просто потому, что они находятся близко в многомерном векторном пространстве. В энергетике или на химическом производстве за такое сажают. Поэтому чистый векторный поиск для технической нормативки категорически непригоден.

Спасает только жесткий гибрид. Мы намертво сшиваем семантику с классическим лексическим поиском на базе алгоритма BM25. Вектор тянет общий контекст и понимает синонимы, а BM25 цепляется за точные совпадения вроде аббревиатур ПУЭ, СНиП, ППР и конкретных номеров пунктов. Когда эти два потока сливаются, в дело вступает легковесная кросс-энкодерная модель, так называемый реранкер. Он пересобирает полученную кашу из фрагментов текстов и выстраивает адекватный топ, отсекая мусор. Только так можно заставить систему находить точечные требования среди десятков тысяч страниц заводских инструкций.

Но самое страшное, что вообще может сделать генеративная модель в промышленности — это проявить творческую фантазию. Если нейросеть не нашла нужный норматив по опрессовке труб высокого давления или регламент огневых работ, она должна немедленно закрыть рот и честно выдать, что ответа в базе нет. Галлюцинация в потребительском чат-боте — это забавный скриншот для соцсетей. Галлюцинация в инструкциях для оператора ОПО — это потенциальная техногенная катастрофа и тюремный срок. Контроль галлюцинаций в индустриальных RAG-системах выкручивается на абсолютный максимум. Промпты затачиваются под параноидальное следование исключительно извлеченному контексту. Никаких додумываний на базе весов, полученных при претрейне. Каждое сгенерированное утверждение обязано сопровождаться жесткой ссылкой на первоисточник: точное название регламента, номер главы, конкретный абзац.

Правда жизни в том, что все эти сложные гибридные поиски, реранкеры и хитроумные системные промпты моментально летят в мусорную корзину, если на входе у вас грязная оцифровка. Идеальных машиночитаемых документов на старых предприятиях не бывает в принципе. Есть кривые сканы регламентов лохматых девяностых годов, отвратительно распознанные многоэтажные таблицы, слипшиеся колонки текста, колонтитулы и водяные знаки, разбивающие осмысленные абзацы пополам.

Если вы запихнете этот типографический мусор в стандартный алгоритм нарезки по количеству токенов как есть, на выходе получите шизофрению. Кусок предложения будет оторван от контекста, а пункт 3.1.4 потеряет связь со своим родительским разделом 3.1. Огромная доля работы в таких суровых проектах — это написание кастомных парсеров под конкретные и часто уникальные форматы предприятия. Мы внедряем иерархический чанкинг, чтобы каждый извлеченный фрагмент тащил за собой тяжеловесные метаданные о том, к какому приказу и к какой главе он относится. Иначе при поиске вы получите просто фразу «предельное давление 5 атмосфер» без малейшего понимания, для какого именно насоса это написано. Мусор на входе всегда дает мусор на выходе, какую бы гениальную языковую модель вы ни прикрутили сверху.

Здесь критически важно четко понимать бизнес-ограничения и честный трейд-офф технологии. Локальный RAG — это исключительно мощный ускоритель информационного поиска. Он экономит десятки часов нудного копания в пыльных папках и гигабайтах разрозненных файлов, когда нужно срочно найти правильный регламент действий при критическом падении давления в контуре охлаждения. Но эта штука никогда не заменит ответственного, живого специалиста. У сгенерированного нейросетью ответа нет и не может быть юридической силы. LLM просто мгновенно кладет нужный, проверенный абзац прямо перед глазами инженера. А финальное решение всегда принимает человек, ставя свою личную подпись в наряде-допуске на работы.

У нас в MoranaLabs сборка таких закрытых индустриальных систем давно превратилась из исследовательских экспериментов в жесткую инженерную рутину. Мы не пытаемся заставить языковую модель быть умнее главного инженера завода или перехитрить законы физики. Мы методично строим конвейеры, где грязный парсинг исторической нормативки, выверенный гибридный поиск и суровые квантованные модели работают как единый, предсказуемый механизм на серверах заказчика. Модель получает выжимку с абсолютной фактологической релевантностью, полевой инженер получает мгновенный ответ с точной железобетонной ссылкой на ГОСТ, а суровые безопасники спят абсолютно спокойно. Они знают, что ни один токен, ни одна запятая из секретного регламента не покинула их защищенный ЦОД. Это не магия искусственного интеллекта, это просто правильная архитектура.

On-prem RAG по нормативке предприятия: ответ инженеру со ссылкой на пункт ГОСТ, а не галлюцинация

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

СБИС, Диадок, Контур или своя модель: чем отличается распознавание первички

Сколько стоит распознавание документов в 1С: считаем на 3000 накладных в месяц

Распознавание первичных документов в 1С: как перестать вбивать накладные руками

Опишите задачу — ответим как инженеры.