Представьте себе стандартный пейлоад интегратора: эндпоинт облачного провайдера, авторизационный токен, системный промпт с ролью медицинского советника и векторная база на публичных серверах. Инженеры радостно жмут деплой. Директор по R&D смотрит на красивый чат. А регуляторы уже могут готовить штрафы за утечку коммерческой тайны и персональных данных пациентов. Это архитектурное преступление. Прямой путь к отзыву лицензий и краху многомиллиардного проекта.
Рынок забит хайпом вокруг генеративных моделей, но почти все делают это неправильно, когда дело касается регуляторно чувствительных данных. Развернуть облачную обертку быстрее и проще. Но когда на кону химические формулы, результаты клинических исследований и медицинская тайна, компромиссов нет. Внедрять полноценный on-prem RAG-ассистент для R&D и регистрации лекарств: поиск по протоколам, досье и фармакопее без утечки в чужое облако становится вопросом выживания бизнеса, а не просто корпоративной инновацией.
Медицинские и регуляторные департаменты (RA) тонут в текстах. Регистрационное досье — это десятки тысяч страниц неструктурированного ада. Протоколы, отчеты о нежелательных явлениях, сканы лабораторных таблиц, бесконечные выдержки из государственной фармакопеи. Когда медицинскому директору нужно срочно понять, почему в когорте плацебо на второй фазе выстрелила специфическая токсичность, аналитики неделями перерывают архивы. Обычный поиск по ключевым словам здесь мертв. Он не понимает контекста и не видит разницы между активным веществом и его метаболитом.
Наивный RAG из туториалов ломается на первом же реальном досье. Вы бьете пятисотстраничный PDF на куски, прогоняете через эмбеддинг-модель и складываете векторы в базу. Нейросеть находит похожие фрагменты, слепляет их и выдает связный, но абсолютно бредовый ответ. Галлюцинации. В мире фармы галлюцинация — это тюрьма. Директору по регистрации не нужен творческий пересказ документа. Ему нужна железобетонная ссылка на конкретный абзац в утвержденном протоколе.
Архитектура без галлюцинаций: Graph RAG и ролевая изоляция
Наш подход в Morana Labs кардинально отличается от того, что массово продают рынку. Мы не скармливаем языковой модели текстовый мусор. Мы строим графовую архитектуру генерации. Текст парсится в строгий граф знаний, где узлами выступают конкретные сущности: действующее вещество, номер исследования, нежелательное явление, дозировка. Связи между ними жестко типизированы. Когда пользователь задает вопрос, система сначала обходит граф, находит математически точные связи вещества с клиническим исследованием и побочным эффектом, извлекает ID конкретных документов и только потом формирует итоговый ответ.
Модель лишена права на фантазию. Мы жестко прописываем в логике пайплайна необходимость прямого цитирования. В ответе всегда фигурирует точный пункт, номер страницы и название документа. Нет узла в графе — модель отвечает отказом. Лучше получить честное молчание системы, чем выдуманный профиль безопасности препарата, который уйдет в Минздрав.
Параллельно вступает в игру контроль доступа по проектам. Фармацевтические компании работают в условиях параноидальных NDA даже внутри собственных лабораторий. Команда, разрабатывающая биоаналог для онкологии, не должна иметь доступа к протоколам команды по орфанным заболеваниям. В наивных реализациях все эмбеддинги лежат в одной базе, и модель легко вытаскивает кусок чужого химического состава, если векторы случайно совпали. Изоляция данных должна происходить на уровне индексов векторного хранилища, а фильтрация метаданных обязана отрабатывать задолго до того, как текст попадет в контекстное окно нейросети.
Экономика инференса за закрытыми дверями
Интеграторы пугают бизнес стоимостью серверного оборудования. Они убеждают, что локальный инференс — это миллионы долларов на стойки с топовыми ускорителями. Это ложь. Для уверенного RAG-пайплайна с точным поиском и агрегацией фактов не нужна модель на сто миллиардов параметров. Тщательно затюненная локальная модель на восемь или четырнадцать миллиардов параметров справляется с извлечением информации безупречно, если графовый поиск отработал без ошибок. Такую модель можно поднять на нескольких серверных видеокартах среднего ценового сегмента, которые поместятся в стандартный сервер-баребон.
Мы разворачиваем такие системы на железе заказчика, в полностью изолированном контуре без единого выхода в интернет. Morana Labs строит on-prem RAG для фармы от 700 000 рублей, обеспечивая полный цикл локального инференса. Никакие метрики, никакие логи пользовательских запросов, никакие персональные данные пациентов из отчетов КИ не покидают периметр компании. Сервер стоит в вашей стойке. Данные лежат на ваших зашифрованных дисках.
Облачный ассистент всегда будет быстрее в запуске. Вы покупаете доступ по API, настраиваете дашборд, и через неделю система отвечает на вопросы. Но цена этой скорости — потеря контроля над ядром вашего бизнеса. Формулы, составы, результаты испытаний становятся кормом для обучения чужих моделей. В индустрии, где одна молекула стоит миллиард долларов и десять лет исследований, отправка данных на сторонний сервер является профессиональным самоубийством. Жесткая инженерия защищает бизнес, а слепая вера в облачный хайп его уничтожает.