Задача
Поток тяжёлых, грязных B2B-документов с длинными последовательностями. Трансформерная архитектура упиралась в квадратичную сложность по длине контекста — latency росла, а стоимость инференса делала прод нерентабельным.
Подход
Перевели обработку длинных последовательностей на State Space Models (Mamba) — линейная сложность по длине контекста вместо квадратичной. Инференс оптимизировали по-взрослому: динамический батчинг, квантизация, профилирование под конкретное железо, Triton-кернелы на горячих путях.
Пайплайн спроектировали так, чтобы держать поток на пике, а не захлёбываться: backpressure, очереди, предсказуемая деградация под нагрузкой.
Стек
Mamba/SSM · PyTorch · Triton · CUDA · динамический батчинг
Результат
- ×7 throughput на тех же GPU.
- Predictable latency на длинных последовательностях — без квадратичного роста.
- Себестоимость инференса снижена кратно.