Вы сидите в закрытой серверной промышленного завода. Никакого облака, данные не покидают периметр. В стойке — локальный сервер с парой L40s. Задача: скормить модели непрерывный поток телеметрии и сырых системных логов на 150 000 токенов, чтобы поймать комплексный паттерн отказа оборудования. Вы берете свежую open-source модель на архитектуре трансформера, забрасываете контекст. RuntimeError: CUDA out of memory.
Типичный рабочий день в Morana Labs. Индустриальный ИИ, edge-вычисления, high-load на железе клиента диктуют свои правила.
Индустрия предлагает два пути решения. Первый — сделать RAG. Второй — купить узел на восемь H100. Почти все делают это неправильно. RAG шинкует связанный таймлайн на слепые куски, теряя причинно-следственные связи длиннее чанка. А заливать проблему железом — это не инженерия. Это капитуляция. Большинство пытается лечить симптомы, игнорируя суть: механизм внимания в трансформере математически не предназначен для длинных последовательностей. SSM и Mamba для длинных документов: линейная сложность вместо квадратичной у трансформера — это не академическая игрушка, а единственный способ выжить на длинном контексте там, где VRAM ограничена физикой.
Смотрите на профиль нагрузки, где классика идет ко дну. Self-attention заставляет каждый токен вычислять свою связь с каждым предыдущим токеном. Это O(N²) по времени и памяти. На 4k токенов это работает великолепно. На 128k токенов вы перестаете вычислять логику. Вы вычисляете матрицу внимания между запятой на первой странице и опечаткой на сто пятидесятой.
Генерация в трансформере (авторегрессионный декодинг) — это memory-bound операция. Чтобы выдать один новый токен, GPU должен протащить весь KV-кэш из медленной памяти HBM в быструю SRAM. Чем длиннее контекст, тем жестче вы упираетесь в пропускную способность шины памяти. Даже с FlashAttention вычислительные блоки простаивают. Они ждут, пока чип переварит раздувшийся кэш. Вы платите за электричество, которое расходуется на перемещение данных, а не на полезную математику. Время до первого токена (TTFT) улетает в секунды, а throughput падает до значений, неприемлемых в real-time системах.
Как SSM и Mamba для длинных документов обходят квадратичную сложность
Архитектура State Space Models (SSM), и в частности Mamba, возвращает нас к идеям рекуррентных сетей, но на стероидах современного железа. Mamba заменяет механизм внимания на селективную модель пространства состояний. Она сжимает контекст в скрытое состояние фиксированного размера.
Сложность становится линейной. O(N).
Классические модели пространства состояний (S4) были хороши в теории, но на практике их матрицы переходов были статичными. Модель не могла фильтровать шум. Mamba сделала шаг вперед: ее матрицы стали зависеть от входных данных (input-dependent). Она читает текущий токен и решает, обновить скрытое состояние или проигнорировать мусор.
Зависимость от входа убила возможность использовать быстрое преобразование Фурье для распараллеливания. Авторы Mamba решили это на уровне кремния: написали кастомный алгоритм параллельного сканирования (parallel scan), который живет прямо в SRAM чипа GPU, минимизируя походы в HBM. Результат — параллельное обучение как у трансформера, но инференс со скоростью O(1) на токен. Память больше не растет пропорционально длине промпта.
В задачах парсинга длинных логов, чтения гигантских JSON, анализа временных рядов или транскрипции разговоров SSM выдает до 7x throughput по сравнению с оптимизированными трансформерами.
Семь раз. Это чистая физика.
Цена билета: компромиссы и гибридные архитектуры
Если всё так хорошо, почему мы не выбросили трансформеры? Чудес не бывает.
Сжатие контекста в фиксированное окно имеет цену. Mamba проигрывает трансформерам в задачах точного поиска (exact retrieval), когда нужно вспомнить конкретный идентификатор из середины 100-тысячного документа. Состояние сжимается, детализация падает. На чистом zero-shot reasoning коротких дистанций SSM пока уступает лучшим attention-моделям.
Экосистема тоже сопротивляется. Запустить трансформер в проде легко: vLLM, TensorRT-LLM, Triton — всё заточено под attention. Зрелость инструментов для SSM пока отстает, кастомные CUDA-ядра требуют аккуратной интеграции под конкретные инстансы.
Прагматичный выход — гибридные архитектуры. Модели вроде Jamba чередуют слои трансформера и Mamba. Механизм внимания работает локально, обеспечивая точный reasoning на коротких окнах, а слои SSM протаскивают глобальный контекст через весь документ с линейными затратами VRAM.
Ориентир для продакшена. Когда пора переходить на SSM и отказываться от классики:
- Сырые логи и временные ряды: паттерн размазан по сотням тысяч токенов, а пословный recall не требуется.
- Глубокий анализ на edge-устройствах: VRAM жестко ограничена спецификацией железки, а данные за контур отдавать нельзя.
- High-throughput конвейеры: пропускная способность системы (запросов в секунду) важнее способности модели генерировать стихи.
Архитектура — это не выбор модного названия. Это выбор правильного компромисса под профиль нагрузки. Хватит жечь VRAM на вычисление внимания к белому шуму.