Проектируем пайплайны парсинга и обработки тяжёлых B2B-данных: терабайты, длинные последовательности, грязные источники. Архитектура держит поток, а не захлёбывается на пике.
State Space Models на длинном контексте
Глубоко работаем со State Space Models (SSM, Mamba) там, где трансформеры упираются в квадратичную сложность по длине контекста. Линейная сложность — это деньги на инференсе.
Оптимизация инференса по-взрослому
Батчинг, KV-cache, квантизация, Triton-кернелы, профилирование под конкретное железо. Цель — throughput и predictable latency, а не красивые бенчи на одной картинке.