Потоковое распознавание речи для контакт-центра on-prem

Распознавание речи для контакт-центра банка работает целиком на его собственном сервере — записи звонков подпадают под банковскую тайну и закон о персональных данных (152-ФЗ), поэтому все вычисления идут внутри. Одна машина с GPU ведет 40 разговоров параллельно и обрабатывает речь быстрее реального времени.

Задача

Контакт-центр банка, десятки одновременных звонков. Заказчику нужны подсказки оператору по ходу разговора и автоматический контроль качества.

Ограничение: записи звонков — банковская тайна и персональные данные (152-ФЗ), отправлять их в облако нельзя. Поэтому on-prem: обработка идет на оборудовании банка, наружу не уходит ни одной записи.

Подход

Потоковое распознавание речи развернули на сервере банка с GPU — видеокартой, которая ускоряет нейросети. Текст появляется частями, пока человек еще говорит.

Главная сложность — телефонный звук: узкий канал, шум, перебивки. Модель дополнительно обучили на записях живых разговоров и ужали под конкретную видеокарту — ошибок стало на 31% меньше.

От перегрузки защищает очередь: при всплеске звонков фрагменты речи коротко ждут обработки, темп не срывается.

Стек

CUDA · TensorRT (INT8) · streaming decoder · WebRTC VAD · Rust (демон очередей)

Результат

Система приняла боевой поток звонков с запасом скорости около пяти раз. Если нагрузка вырастет, то же оборудование справится.

Потоковое распознавание речи для контакт-центра on-prem

Задача

Подход

Стек

Результат

Синхронный перевод живой речи для прямых эфиров

Генерация товарных изображений на потоке: диффузия on-prem

Приватный RAG-ассистент по инженерной базе on-prem

Опишите задачу — ответим как инженеры.