Извлечение данных из грязных сканов для бэк-офиса

Точность 97.3% по ключевым полям — на банковских сканах с печатями поверх текста и десятками шаблонов. Распознавание развернуто на серверах самого банка, облако исключено требованиями ИБ; оператор проверяет только те поля, которые система пометила сама.

Задача

Бэк-офис банка вручную переносил в учетную систему данные из сканов: договоры, платежки, анкеты. На листах перекосы, тени от сгибов, печати поверх текста. Шаблонов десятки, ошибка в реквизитах всплывает дальше по конвейеру как инцидент.

Работать все должно on-prem — на серверах самого банка: облачное распознавание запрещают политика ИБ и 152-ФЗ, закон о персональных данных.

Подход

Сначала система выравнивает скан: правит перспективу и поворот. Печати и рукописные пометки гасятся маской до чтения текста.

Затем — разметка таблиц и OCR, автоматическое распознавание: скан становится текстом и готовыми полями. Каждое поле сверяется со справочниками: БИК, контрольные разряды счета, словарь контрагентов.

Сомнительное поле система помечает и отдает оператору. Редкие бланки, где модель путалась, закрыли дополнительным обучением.

Стек

OpenCV · ONNX Runtime · PaddleOCR · table detection (DETR) · rule-based валидация

Результат

71% сканов идут в учетную систему без оператора. Ручной ввод остался по помеченным полям — ошибка в реквизитах больше не проскакивает молча.

Извлечение данных из грязных сканов для бэк-офиса

Задача

Подход

Стек

Результат

Помощь рентгенологу: сегментация и приоритизация КТ-исследований on-prem

Мульти-камерный трекинг матча в прямом эфире с broadcast-задержкой

Генерация товарных изображений на потоке: диффузия on-prem

Опишите задачу — ответим как инженеры.