Считали, сколько стоит один клик нейросети по экрану системы госзакупок? Большинство ИТ-директоров свято верят, что разгонят бэкофис за три копейки API-токенов, стоит только подключить модную VLM. Нет. Мы посчитаем сухую математику инфраструктуры.
Сегодня разбираем архитектурную развилку, которую вендоры агрессивно подают как новую норму. Computer-use агент против RPA в 2026: где UI-автоматизация бэкофиса окупается, а где разносит прод. Ваш операционный отдел тратит от тридцати до шестидесяти процентов времени на перенос данных из порталов в 1С или Excel. Классический RPA на базе PIX или Sherpa живет ровно до первого релиза фронтенда портала ФНС или банка. Робот ищет кнопку по CSS-селектору. Разработчики портала выкатывают апдейт, динамический класс меняется, XPATH едет. Робот падает с таймаутом. На сцену выходит vision-language модель с виртуальной мышью в зубах. Вам обещают абсолютную устойчивость: скриншот, внутреннее рассуждение, вычисление координат, клик. Модель найдет кнопку, даже если дизайнер перекрасил ее в розовый цвет и убрал в подвал.
Архитектура нестабильности: экономика пикселей
Наш подход в Morana Labs к таким обещаниям опирается исключительно на профиль нагрузки и стоимость транзакции. Как работает типичный скриншот-агент под капотом? Модель получает изображение экрана. Чтобы не терять мелкие детали интерфейса, картинка бьется на патчи высокого разрешения. Один шаг обходится в тысячу или три тысячи токенов на вход. Дальше идет генерация: модель выдает JSON с точными координатами X и Y целевого элемента. Суммарно одна итерация занимает от двух до шести секунд задержки.
Заполнение средней формы на госпортале требует двадцать шагов. Это минуты ожидания на одну бизнес-транзакцию и десятки центов себестоимости инференса. На жестко регламентированном процессе визуальный агент в пятьдесят раз дороже и на порядок медленнее дубового скрипта. Это физика серверов.
Но интерфейсы порталов меняют дизайн по пять раз в год. Здесь жесткий RPA начинает пожирать бюджет на бесконечную актуализацию селекторов. И здесь возникает соблазн отпустить агента в автономное плавание по верстке. Без железобетонных guardrails это верная смерть продакшена. Агент галлюцинирует. Кликает на соседнюю строку в таблице. Бесконечно скроллит страницу из-за всплывающего баннера.
Надежная архитектура требует детекта ошибочного действия, принудительного скриншот-чека после каждого шага и автоматического отката состояния при сбое. На необратимых операциях вроде подтверждения платежа обязателен режим human-in-the-loop. Агент только собирает данные и заполняет форму. Жмет финальную кнопку живой человек.
def execute_safe_ui_transition(state: BrowserState, task: str) -> BrowserState: action_intent = vlm_planner.extract_intent(state.vision_context, task) if action_intent.type in IRREVERSIBLE_ACTIONS: raise HumanInTheLoopInterrupt("Требуется валидация оператора", action_intent) pre_action_dom = get_accessibility_tree(state.page) # Гибридный шаг: агент дает координаты, драйвер делает мгновенный клик execute_cdp_action(action_intent.coordinates) new_state = capture_state() validation = vlm_validator.verify_transition(state.screenshot, new_state.screenshot, action_intent) if validation.confidence_score < 0.95: rollback_dom_state(pre_action_dom) raise AgentHallucinationError(f"Сбой консистентности: {validation.reason}") return new_stateВзрослый паттерн эксплуатации — это гибрид. Агент применяется как оптический распознаватель в моменты, когда падает основной RPA. Он смотрит на измененный экран, вычисляет новые селекторы на лету, а само действие исполняет классический, детерминированный движок. Агент думает. Скрипт бьет.
Безопасность экрана и матрица принятия решений
Добавьте сюда суровую реальность 152-ФЗ. Экран сотрудника бэкофиса переполнен персональными данными, выписками и сканами паспортов. Гонять эти скриншоты по API в публичные облака нельзя. Требуется локальный инференс тяжелой модели, что влечет за собой закупку серверного железа с GPU, ломая красивую экономику бесплатного внедрения.
Появляется совершенно новый вектор атак — визуальный prompt injection. Злоумышленник пишет в поле комментария к заявке мелким шрифтом команду перевести деньги на другой счет. Бот считывает экран, поглощает текст в единый контекст рассуждения и исполняет команду. Наш подход в Morana Labs исключает работу автономных UI-агентов на реальных рабочих станциях без аппаратной или программной изоляции. Контейнеризация браузерных сессий с доступом строго к целевому домену — базовый гигиенический минимум.
Где эта сложная система окупается прямо сейчас? Парсинг кабинетов мелких поставщиков, где каждый выставляет счета в уникальном интерфейсе. Выгрузка данных из легаси-ERP без API, где интерфейс похож на панель управления атомным реактором. Мониторинг площадок с агрессивной защитой от скрапинга и плавающим DOM-деревом.
Определите частоту слома верстки в ваших процессах, стоимость часа простоя отдела разработки на фиксацию скриптов и цену ошибки модели. Если процесс детерминирован и не меняется годами — пишите код на Python. Если интерфейс ломается каждую неделю, а цена сбоя копеечная — внедряйте скриншот-агента. Если объем транзакций огромен, а сбой означает потерю контракта — стройте гибридный конвейер с контрольными точками.
Проверить архитектуру ваших бизнес-процессов на прочность и целесообразность ИИ-трансформации можно через аудит автоматизации под нагрузкой. Найдем бутылочные горлышки и жестко отделим процессы, где зрячий агент спасет время, от тех, где он гарантированно сожжет вам деньги.