Реалтайм-перевод и субтитры совещаний on-prem: war story

def naive_meeting_pipeline(audio_stream):
    for chunk in audio_stream.read(chunk_size_seconds=5):
        # Ждем накопления буфера
        text = whisper_model.transcribe(chunk)
        translation = llm.translate(text, target="ru")
        broadcast(translation)

Тот, кто пишет подобный код для переговорки совета директоров, будет уволен через пять минут после начала встречи. Задержка end-to-end больше полутора секунд гарантированно убивает синхрон. Человек на экране уже перешел к цифрам из квартального отчета, а вы только читаете, как он поздоровался. Если вам нужен реалтайм перевод субтитры совещаний on-prem, этот кустарный пайплайн из пятисекундных чанков и неповоротливой LLM обеспечит латентность секунд в восемь.

Облачные костыли вроде встроенных ИИ-ассистентов в Teams или Zoom недоступны по понятным причинам. Безопасники завернут пилот на стадии концепта: выносить записи переговоров с вендорами, подрядчиками или обсуждение КИИ на чужие сервера запрещено ФСТЭК и здравым смыслом. Живые субтитры встречи и нейросеть, которая крутится локально внутри периметра — единственный рабочий вариант. Но заставить streaming ASR и машинный перевод работать быстро и не сжигать ресурсы всего дата-центра — это жесткая аппаратная и софтверная инженерия, а не вызовы готового API.

Реалтайм перевод и субтитры совещаний on-prem: физика задержки

Синхронный ИИ-перевод переговоров без облака строится на бюджете миллисекунд. Восприятие начинает «разъезжаться» с картинкой при задержке выше 1200 мс. Обычное нарезание аудио жесткими окнами здесь не работает, потому что языки имеют разный порядок слов: чтобы перевести немецкое отрицание на русский, системе часто нужно дождаться конца фразы. Чтобы уложиться в бюджет, мы режем аудиопоток на микро-сегменты и собираем гипотезу инкрементально:

Capture и VAD (Voice Activity Detection): ~70 мс. Выхватываем голос из Opus-фреймов, отсекаем тишину, чтобы не кормить фоновый шум нейронке и экономить такты GPU.
Streaming ASR: ~400 мс. Потоковая модель выдает частичные гипотезы (partials). Мы не ждем конца предложения, токены генерируются по мере поступления аудио.
Инкрементальный MT: ~300 мс. Модель перевода триггерится не на таймер, а на семантические границы (wait-k policy). Она оценивает, достаточно ли накоплено контекста для перевода фрагмента без искажения смысла.
Рендер субтитров: ~16 мс. Вывод поверх видеопотока или в отдельный интерфейс ВКС.

Главная боль фронтенда в таких пайплайнах — мерцание. Потоковый ASR постоянно делает ре-ранкинг и меняет хвост предыдущей гипотезы, когда получает новые аудиоданные (дрейф контекста). Если выводить сырой поток на экран, текст будет дико прыгать, сводя участников с ума. Проблема решается введением стабилизационного окна: мы фиксируем префикс фразы, в котором уверенность акустической модели превысила порог, и перестраиваем только «мягкий» хвост. Для зрителя это выглядит как плавное появление текста с редкими корректировками последнего слова.

Синхронный ИИ-перевод переговоров без облака: грабли и железо

Лабораторные бенчмарки на вылизанных датасетах не имеют ничего общего с гудящей заводской переговоркой. На реальном объекте система мгновенно ломается о кросс-ток — накладывающиеся реплики, когда два человека говорят одновременно. Если VAD не умеет физически разводить потоки или игнорировать эхо из колонок, ASR сгенерирует галлюцинаторную кашу. Вторая проблема продакшена — деградация контекста на дистанции. На двухчасовых совещаниях матрицы внимания переполняются, модель начинает путать языки или уходить в циклы. Состояние энкодера нужно жестко сбрасывать по границам фраз VAD'а, прокидывая вперед только системный промпт и эмбеддинги терминологии.

Специализированная лексика — отдельный пласт инженерии. Нейросеть из коробки не знает фамилию вашего гендиректора или маркировку турбины. Fine-tuning под каждую встречу делать невозможно, поэтому применяется горячая инъекция терминов: мы модифицируем граф декодера (shallow fusion) или используем prefix-tuning прямо в памяти, чтобы заставить модель с более высоким весом выдавать заданные N-граммы.

Метрика	Значение на проде (on-prem GPU)
Задержка до первого слова (TTFW)	800–1100 мс
WER (спонтанная речь, смешанный шум)	9–12%
Утилизация VRAM на 1 активную комнату	~4.5 ГБ (квантование INT8)
Throughput на одной карте (RTX 4090 / L40)	До 5 ВКС-комнат параллельно

Реальный критерий приемки системы — это способность выдерживать рваный темп спикера при latency до секунды и WER ниже 10%. Архитектура разворачивается на сервере с парой потребительских RTX 4090 или энтерпрайзных L40 внутри закрытого контура. Аудио не покидает периметр маршрутизатора, стенограмма пишется в локальную СУБД. Это понятная спецификация железа под N комнат, с которой можно заходить в корпоративный сектор, выкидывать облачные подписки и запускать полноценный реалтайм пилот.

Реалтайм-перевод и субтитры совещаний on-prem: уложить ASR+перевод в задержку, которая не бесит — war story с замерами

Реалтайм перевод и субтитры совещаний on-prem: физика задержки

Синхронный ИИ-перевод переговоров без облака: грабли и железо

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

СБИС, Диадок, Контур или своя модель: чем отличается распознавание первички

Сколько стоит распознавание документов в 1С: считаем на 3000 накладных в месяц

Распознавание первичных документов в 1С: как перестать вбивать накладные руками

Опишите задачу — ответим как инженеры.