Поток первички — 1200 документов в день. Восемь операторов вбивают суммы, ИНН и номера руками. Один из них к концу смены стабильно путает «3» и «8», и эта ошибка всплывает кварталом позже актом сверки, на котором не сходится 240 тысяч. Это не страшилка, это типовой бэкофис — ровно тот, ради которого и заказывают распознавание документов. А дальше начинается самое интересное: вы идёте за ценой.
И встречают вас двое. Сверху — вендор с «точностью 99,9%». Снизу — фрилансер, готовый «прикрутить распознавание за 50 тысяч». Оба числа враньё, просто в разные стороны. Пока вы не понимаете, из чего реально складывается стоимость системы распознавания документов на заказ, вы будете платить за воздух: либо переплатой вендору за облако и ренту по числу страниц, либо переделкой за фрилансером, чья поделка сложилась на втором типе документа.
Разложу проект по статьям: где прячется цена, почему осмысленный пилот OCR честно стоит от 400 000 ₽, а не «как договоримся», и как не подписать КП, после которого вы будете доплачивать три года.
«99,9%» и «92% из коробки» — почему обе цифры вам врут
От точности пляшет вся экономика, поэтому начнём с неё. Вендорские «99,9%» — это посимвольная точность на их собственном чистом датасете. Красиво и почти бесполезно. Вам нужна не посимвольная, а точность по полям (field-level): извлёк ли алгоритм ИНН, сумму, дату и номер целиком и верно. Поле устроено жёстко — одна кривая цифра, и оно не зачтено, документ ушёл на ручную проверку. Целиком.
Посчитайте сами. Пусть посимвольная точность честные 99,5%. ИНН — 12 знаков. Вероятность, что все 12 распознаны верно, — 0,995 в двенадцатой степени, около 94%. Каждый шестнадцатый ИНН мимо. На потоке тысяча документов в день — это шестьдесят ручных разборов по одному полю. А полей в счёте-фактуре полтора десятка. Вот так «99,9% точности» в проде превращаются в «треть документов всё равно смотрит человек».
Коробочные сервисы это знают, и честные из них называют реальные числа. У Dbrain базовая точность 92%, до 99,5% догоняется верификаторами — читай, человеком в цикле. Smart Engines рисует «99,9%» на типовой первичке. Они не врут — на их данных всё так. Вопрос в том, что будет, когда на вход придут ваши документы: печать поверх суммы, рукописная пометка бухгалтера на полях, скан под углом с телефона кладовщика, форма поставщика, которой нет ни в одном обучающем наборе. Здесь коробка и складывается с 99% до 70%, а узнаёте вы об этом уже после оплаты лицензии.
И отдельно — про прайс. Заметьте: ни Smart Engines, ни Dbrain, ни их интеграторы не публикуют цену. «Рассчитывается индивидуально по запросу». Это не скромность. Непрозрачная цена — инструмент: сначала пилот, потом тариф по числу распознаваний, и через год вы платите за каждую страницу как за такси. Заказная система такой ренты не имеет — она ваша, инференс крутится на вашем железе, и лишний миллион страниц не стоит ничего.
«А давайте просто закинем в GPT, он же всё распознаёт»
Любимый аргумент 2026 года. Vision-LLM — GPT-4o, Qwen-VL, Gemini — действительно читают документ глазами и выдают текст без всякого OCR-пайплайна. На демо это выглядит как магия. В проде на первичке — это ловушка, и вот почему.
Языковая модель не распознаёт цифру, она её додумывает. Там, где специализированный OCR честно скажет «не уверен в третьем знаке», LLM уверенно впишет правдоподобную сумму, потому что она так обучена — выдавать связный ответ, а не молчать. Это называется галлюцинация, и в распознавании счёта она смертельна: система не падает, не подсвечивает ошибку, она тихо проводит в учёт 1 800 000 вместо 1 300 000. Худший вид ошибки — тот, который выглядит как успех.
Дальше — нет калиброванного confidence. У нормального OCR на каждое поле есть честная уверенность, по которой строится автоматическая доверка. У vision-LLM «уверенность» — это в лучшем случае logprob токена, который слабо коррелирует с фактической верностью числа. Принять такую систему по F1 и порогам нельзя, а значит нельзя и положиться. Плюс ваши документы в этом сценарии уезжают в чужое облако со всеми персональными данными и коммерческой тайной — об этом ниже отдельно.
Где vision-LLM уместен — это извлечение смысла из свободного текста, классификация, ответ на вопрос по документу. Там, где цена ошибки — копейки. На бухгалтерской и банковской первичке, где ошибка в цифре стоит денег и репутации, работает связка: специализированный OCR с калиброванным confidence плюс жёсткая валидация. LLM — в помощь на разборе формулировок, а не на цифрах.
Что на самом деле происходит с документом
«OCR» в голове заказчика — это «картинка зашла, текст вышел». В реальном пайплайне между ними пять стадий, и распознавание текста — самая простая из них. Деньги проекта уходят в остальные четыре.
Препроцессинг. Скан приходит кривым: завален на пару градусов, с тенью от сгиба, фоновым шумом, иногда вверх ногами или в виде факс-копии 200 dpi. Прежде чем что-то распознавать, картинку надо выпрямить, очистить, повернуть, определить, что это вообще за документ и сколько в нём страниц. Накосячили здесь — дальше посыплется всё. Layout-анализ. Система должна понять структуру: где шапка, где таблица позиций, где итоговая сумма, где реквизиты. На типовой форме это тривиально, на «креативном» макете поставщика — отдельная боль, особенно если таблица без линий и колонки разъезжаются. Распознавание. Собственно текст. Open-source движков хватает — Tesseract, PaddleOCR, Surya; мы их гоняли на русских документах в отдельном разборе, и лицензия у них ноль. Валидация по справочникам. Вот где рождается реальная точность: распознанный ИНН проверяется по контрольной сумме и по вашему справочнику контрагентов, сумма — по арифметике документа (позиции + НДС = итог), дата — на вменяемость. Если ИНН не бьётся, система не гадает, а отправляет на доверку. Проводка. Финал — разложить по полям и закинуть в вашу учётку. Часто в кастомную 1С с доработками с 2011 года, где коробочный коннектор не лезет, и интеграция превращается в отдельный подпроект.
Запомните пропорцию: само «распознавание текста» — это от силы пятая часть работы. Поэтому цена «OCR» — это никогда не цена движка.
Когда OCR действительно нужен «на заказ», а не из коробки
Честно, против собственной выручки: если у вас сотня типовых счетов в месяц одного формата — не заказывайте разработку, возьмите коробку, выйдет дешевле, и любой подрядчик, который говорит иначе, продаёт вам лишнее. Заказная система оправдана на трёх сценариях, и в жизни они обычно приходят вместе.
Нестандартный поток. Десятки и сотни поставщиков, каждый со своим макетом, плюс сканы переменного качества. Коробка, обученная на «среднем по больнице», тут садится. Интеграция в вашу учётку. Распознать мало, надо провести: разложить по полям, сверить с номенклатурой, закинуть проводку в вашу — часто кастомную — 1С или ERP. Периметр. Документы — это персональные данные и коммерческая тайна в одном файле. Гонять их в чужое облако — это подарок и РКН, и конкурентам. On-prem, контур не покидается — об этом в конце.
Из чего реально складывается цена
Стоимость OCR-проекта — это не «лицензия на движок». Движок бесплатный. Деньги уходят в пять статей, и распознавание текста среди них на последнем месте.
| Статья затрат | Что это | Доля в пилоте |
|---|---|---|
| Данные и разметка | Сбор репрезентативных образцов всех типов документов, ручная разметка полей под обучение и под golden set приёмки | 30–45% |
| Дообучение под домен | Адаптация моделей детекции и распознавания под ваши формы, печати, шрифты, качество сканов | 15–25% |
| Интеграция | Пайплайн, очередь, валидация по справочникам, проводка в 1С/ЭДО/ERP, интерфейс ручной доверки | 20–30% |
| Инфраструктура | On-prem развёртывание, GPU- или CPU-инференс, контур под 152-ФЗ, мониторинг | 10–15% |
| Приёмка и SLA | Замер field-level F1 на отложенной выборке, пороги доверки, фиксация SLA в договоре | 5–10% |
Видите, где деньги? Не в нейросети. В данных и интеграции. Это ровно та часть, которую вендор прячет за «индивидуальным расчётом», а фрилансер за 50 тысяч просто не делает. 80% бюджета любого ML-проекта съедают данные, а не модель; OCR — не исключение. Хороший подрядчик умеет резать стоимость разметки активным обучением и синтетикой, но обнулить её нельзя.
Плохие сканы — где реально горит бюджет
Если бы все документы приходили чистым PDF из ЭДО, OCR стоил бы копейки и был бы не нужен — коробка справилась бы. Цену делает грязь. Перечислю врагов, на которых закладывается основной бюджет дообучения, и каждый из них — отдельная история провала.
Печать поверх текста — синий оттиск ложится на сумму, и движок видит кашу. Рукописные пометки и подписи в полях, где должен быть машинный текст. Факс-копии и сканы в 150–200 dpi, где у цифр просто нет деталей, чтобы их различить. Мобильные фото под углом, с бликом и тенью пальца. Многостраничные сшивки, где надо понять, что это один документ из пяти листов, а не пять документов. Таблицы без линий, в которых колонки определяются только по выравниванию. Перевёрнутые и зеркальные страницы из автоподатчика. Каждый такой класс — это отдельная порция размеченных примеров и отдельный кусок инженерной работы. Поэтому два внешне похожих проекта могут отличаться по цене втрое: всё решает, насколько ваши документы далеки от идеала.
Три уровня сложности — три вилки цены
Цена пилота определяется не «крутизной ИИ», а дистанцией ваших документов от идеала. Три честных уровня.
| Уровень | Что распознаём | Срок | Вилка пилота |
|---|---|---|---|
| 1. Типовые формы | Структурированный PDF из ЭДО, единый шаблон, машинный текст. Счета и акты одного макета | 3–5 недель | от 400 000 ₽ |
| 2. Полуструктура | Сотни поставщиков, разные макеты, сканы среднего качества, таблицы, печати. Первичка «как в жизни» | 1,5–3 месяца | 700 000 – 1 500 000 ₽ |
| 3. Тяжёлый случай | Рукопись, печати поверх текста, мятые и кривые сканы, чертежи, таблицы без линий, исторический архив | от 3 месяцев | от 1 500 000 ₽ |
Большинство реальных задач — это уровень 2, как бы ни хотелось верить в уровень 1. Простой и честный тест: возьмите случайные 200 документов из вашего реального потока, не эталонных, и посмотрите, сколько из них вы сами прочитаете с первого взгляда без напряжения. Доля, на которой вы споткнулись, — это и есть процент, ради которого нужна заказная система, а не коробка.
Сколько стоит именно дообучение OCR под ваши документы
Самый частый вопрос на пресейле — и самый трезвый, потому что человек уже понял, что готовая модель его поток не возьмёт. Дообучение (fine-tuning) — отдельная статья сметы, и стоит оно обычно от 150 000 до 500 000 ₽ в зависимости от числа типов документов и объёма разметки.
Зачем оно. Базовая модель обучена на «средних» документах. Ваши — специфичны: ведомственные шрифты, гербовые печати, отраслевые сокращения, сканы с конкретного парка МФУ. На таком домене generic-модель честно даёт field-level F1 в районе 0,85 — каждый седьмой документ на ручную доверку. Дообучение на 300–1000 ваших же размеченных образцах вытягивает ключевые поля до 0,96–0,98. Разница между 0,85 и 0,97 — это не «чуть лучше». Это втрое меньше ручной работы операторов, то есть прямая экономия на ФОТ, ради которой проект и затевался.
Где дообучение не нужно: документы идеально типовые и их мало. Тогда не платите за fine-tune — это будет тот самый оверинжиниринг, на котором сливают бюджет и два месяца. Подрядчик, который предлагает дообучать всё подряд, либо не разобрался в вашей задаче, либо набивает чек. И то и другое — повод насторожиться.
Скрытая стоимость: чего нет в красивом КП
Цена пилота — это вход, а не итог. Документооборот живой: появляются новые поставщики со своими макетами, меняются формы, деградирует парк сканеров, дрейфует сама модель. Система, которую сдали и забыли, через полгода тихо опускает точность, и вы узнаёте об этом по жалобам бухгалтерии, а не по дашборду.
В трёхлетний бюджет владения, которого обычно нет в коммерческом предложении, закладывайте: поддержку и мониторинг точности, периодическое дообучение под новые форматы, доразметку, обновление контура под требования регулятора. Это не развод — это нормальная эксплуатация ML-системы, и она дешевле армии операторов, но она не ноль. Подрядчик, который рисует «сдали и до свидания», просто перекладывает эти расходы на ваше будущее «вдруг сломалось».
ROI на пальцах: когда это вообще отбивается
Без этой арифметики любой разговор о цене — гадание. Считаем на нашем потоке в 1200 документов в день. Оператор тратит на ввод и сверку одного документа около 2,5 минут, значит дневной объём — это порядка 50 человеко-часов, то есть 6–7 операторов в найме. При ФОТ оператора 80 000 ₽ в месяц это примерно 500–560 тысяч в месяц только на ручной ввод, не считая ошибок, которые всплывают сверками.
Заказная система с field-level F1 0,97 уводит в авто-проводку 85–90% документов; на доверку остаётся 10–15%, то есть нагрузка одного, максимум полутора операторов. Освобождается пять человек — это 350–400 тысяч в месяц прямой экономии на ФОТ. Пилот второго уровня за 700 тысяч — 1,5 миллиона окупается за 3–6 месяцев на одной зарплате, а скорость закрытия периода, отсутствие ошибок ввода и снятие человеческого фактора со сверок идут сверху. Если в вашей задаче эта математика не сходится — поток слишком мал — честный ответ «вам не нужна заказная разработка», и вы только что сэкономили миллион.
Как принимать работу: F1 и SLA, а не «вроде распознаёт»
Здесь умирает большинство OCR-проектов. Не на технике — на приёмке. Если в договоре написано «система распознаёт документы», вы подписали ничто. Распознаёт как? Какие поля? С какой точностью? На каких документах? Приёмка стоит на трёх китах, и все три — в числах, а не на словах. Это та же дисциплина, что и нормальное ТЗ на AI-проект с метрикой, порогом и датасетом.
Выглядит этот контракт примерно так — и он должен быть приложением к договору, а не пожеланием в переписке:
acceptance:
golden_set: 500 # отложенные документы, подрядчик их НЕ видел при обучении
field_f1: # порог по КАЖДОМУ критичному полю
inn: 0.98
amount: 0.98
date: 0.97
number: 0.96
routing:
confidence_threshold: 0.95 # ниже порога — оператору, не в учёт вслепую
max_auto_share: 0.90 # не больше 90% в авто, остальное на доверку
sla:
latency_p95_ms: 1500 # не «в среднем», а 95-й перцентиль
uptime: 0.995
drift_check: weekly # еженедельный замер точности на свежем потоке
Field-level F1 на отложенном golden set. Не «общая точность», а F1 по каждому полю, которое для вас критично, замеренный на выборке, которую подрядчик не видел при обучении. Иначе он покажет вам красивые цифры на тех же документах, на которых учился. Порог доверки. Всё, что распознано с уверенностью ниже порога, уходит оператору. Это не слабость, это взрослость: опасны не ошибки, опасны тихие ошибки. SLA на эксплуатацию. Latency по p95, доступность, еженедельный контроль дрейфа — потому что без наблюдаемости модель деградирует молча.
Красные флаги подрядчика
На пресейле вас будут проверять на доверчивость. Несколько фраз, после которых стоит держать кошелёк крепче. «Точность 99%» — без уточнения, посимвольная или по полям и на каких данных: число без методики ничего не значит. «Дообучим под вас» на проекте из сотни типовых документов — это набивка чека. «Сдадим и всё заработает» — без слова про мониторинг и дрейф: вам продают мину замедленного действия. «Данные обработаем в нашем облаке» — для первички это сразу нет. И отказ фиксировать F1 и пороги в договоре — главный флаг: если подрядчик уверен в системе, он подписывает числа без торга. Подробнее — как проверить AI-подрядчика на реальную экспертизу, а не на лендинг.
On-prem и 152-ФЗ: почему первичка не должна уходить в чужое облако
Счёт, договор, паспорт в KYC — это персональные данные и коммерческая тайна в одном файле. Отправляя их в облачный OCR-сервис, вы передаёте данные обработчику, которого обязаны указать в согласии, проверить на соответствие 152-ФЗ и которому должны доверять больше, чем себе. На практике — не передавайте. Заказная система разворачивается в вашем контуре: данные не покидают периметр, инференс идёт на вашем железе, наружу не уходит ни одна страница. Для банков, госсектора и всех, кто живёт под регулятором, это не опция, а условие входа. И да, анонимизировать тут нечего: документ — это и есть персональные данные, целиком.
Так мы эти системы и собираем. Был поток первички от четырёх сотен поставщиков: коробка садилась на 70% документов и всё равно гнала треть на ручную доверку. Не стали воевать с чужим движком — собрали свой пайплайн, дообучили на их же документах, вытащили field-level F1 по сумме и ИНН до 0,98, ручную доверку срезали с трети до 6%. Всё внутри их контура, без единой страницы наружу. Это и есть разница между «купили OCR» и «заказали систему под свой поток».
Что сделать перед тем, как подписывать КП
Не верьте ни «99,9%», ни «50 тысяч». Возьмите свою реальную пачку документов, определите по таблице выше свой уровень сложности, прикиньте экономию на операторах и сверьте вилку на калькуляторе — это десять минут и трезвый ориентир вместо гадания. Что входит в проект распознавания документов под ключ, по шагам, со сроками и приёмкой — собрано в услуге OCR-систем; если вам нужна именно первичка в 1С, смежная тема — как убрать ручной ввод счетов, актов и выписок.
А лучше всего — пришлите 200 ваших худших сканов. По ним за вечер видно реальный уровень задачи, честную смету и срок окупаемости. Это точнее любого «рассчитывается индивидуально» — и ни к чему вас не обязывает.