SSM/Mamba-пайплайн для парсинга тяжелых B2B-данных

Разбор B2B-документов дорожал с каждым лишним абзацем, экономика продукта трещала. Помогла смена архитектуры нейросети: тот же парк видеокарт теперь тянет весь поток, а обработка подешевела кратно.

Задача

Клиент из финтеха разбирает поток длинных «грязных» B2B-документов. Узкое место — нейросеть-трансформер: документ вдвое длиннее, вычислений вчетверо больше. Ответ замедлялся, счета за видеокарты росли.

Подход

Перевели разбор на архитектуру State Space Models (Mamba): ее аппетит растет пропорционально длине текста. Остальное добрали оптимизацией под конкретное железо и запасом на пиковые нагрузки.

Стек

Mamba/SSM · PyTorch · Triton · CUDA · динамический батчинг

Результат

Те же видеокарты пропускают в семь раз больше документов, время ответа предсказуемо на любой длине. Продукт снова сходится по деньгам.

SSM/Mamba-пайплайн для парсинга тяжелых B2B-данных

Задача

Подход

Стек

Результат

Рекомендательный ранкинг на 1.2 млн запросов в секунду

Семантический поиск по миллиардам векторов с p99 в единицы мс

Генерация товарных изображений на потоке: диффузия on-prem

Опишите задачу — ответим как инженеры.