Разрабатываем речевые системы: потоковое распознавание (ASR), синтез речи (TTS) и синхронный перевод в реальном времени. Для контакт-центров, прямых эфиров и конференций — с низкой задержкой и, где нужно, on-prem.
Реальное время на длинных диалогах
Распознавание идёт частичными гипотезами — текст появляется по ходу фразы, а не после её конца. Под нагрузкой держим RTF в бюджете на десятках параллельных каналов, очередь с backpressure не даёт сорвать реальное время.
Приватность и качество на домене
Где запись нельзя в облако (банковская тайна, 152-ФЗ) — разворачиваем на вашем железе. Модель дообучаем на доменной речи и терминах, чтобы WER не плыл на специфике.