Внедряем корпоративных ассистентов и поиск по базе знаний на локальных LLM. Ассистент отвечает по вашим документам со ссылкой на источник и честно отказывается, когда основания в базе нет — это лечит главную болезнь RAG: уверенную выдумку.
Grounding, а не красноречие
Качество определяет ретрив: гибридный поиск (плотные эмбеддинги + BM25), реранк, цитирование до конкретного фрагмента и явный отказ при отсутствии контекста. Меряем долю ответов с корректным источником на eval-наборе.
Строго в контуре
Инференс и индекс — on-prem: ни один токен запроса или документа не уходит во внешние API. Модель квантуем ради латентности, индекс обновляем инкрементально, без полного ребилда на каждую правку.