Computer-use агент против RPA: гибридная автоматизация

Считали, сколько стоит один клик нейросети по экрану системы госзакупок? Большинство ИТ-директоров свято верят, что разгонят бэкофис за три копейки API-токенов, стоит только подключить модную VLM. Нет. Мы посчитаем сухую математику инфраструктуры.

Сегодня разбираем архитектурную развилку, которую вендоры агрессивно подают как новую норму. Computer-use агент против RPA в 2026: где UI-автоматизация бэкофиса окупается, а где разносит прод. Ваш операционный отдел тратит от тридцати до шестидесяти процентов времени на перенос данных из порталов в 1С или Excel. Классический RPA на базе PIX или Sherpa живет ровно до первого релиза фронтенда портала ФНС или банка. Робот ищет кнопку по CSS-селектору. Разработчики портала выкатывают апдейт, динамический класс меняется, XPATH едет. Робот падает с таймаутом. На сцену выходит vision-language модель с виртуальной мышью в зубах. Вам обещают абсолютную устойчивость: скриншот, внутреннее рассуждение, вычисление координат, клик. Модель найдет кнопку, даже если дизайнер перекрасил ее в розовый цвет и убрал в подвал.

Архитектура нестабильности: экономика пикселей

Наш подход в MoranaLabs к таким обещаниям опирается исключительно на профиль нагрузки и стоимость транзакции. Как работает типичный скриншот-агент под капотом? Модель получает изображение экрана. Чтобы не терять мелкие детали интерфейса, картинка бьется на патчи высокого разрешения. Один шаг обходится в тысячу или три тысячи токенов на вход. Дальше идет генерация: модель выдает JSON с точными координатами X и Y целевого элемента. Суммарно одна итерация занимает от двух до шести секунд задержки.

Заполнение средней формы на госпортале требует двадцать шагов. Это минуты ожидания на одну бизнес-транзакцию и десятки центов себестоимости инференса. На жестко регламентированном процессе визуальный агент в пятьдесят раз дороже и на порядок медленнее дубового скрипта. Это физика серверов.

Но интерфейсы порталов меняют дизайн по пять раз в год. Здесь жесткий RPA начинает пожирать бюджет на бесконечную актуализацию селекторов. И здесь возникает соблазн отпустить агента в автономное плавание по верстке. Без железобетонных guardrails это верная смерть продакшена. Агент галлюцинирует. Кликает на соседнюю строку в таблице. Бесконечно скроллит страницу из-за всплывающего баннера.

Надежная архитектура требует детекта ошибочного действия, принудительного скриншот-чека после каждого шага и автоматического отката состояния при сбое. На необратимых операциях вроде подтверждения платежа обязателен режим human-in-the-loop. Агент только собирает данные и заполняет форму. Жмет финальную кнопку живой человек.

def execute_safe_ui_transition(state: BrowserState, task: str) -> BrowserState:    action_intent = vlm_planner.extract_intent(state.vision_context, task)        if action_intent.type in IRREVERSIBLE_ACTIONS:        raise HumanInTheLoopInterrupt("Требуется валидация оператора", action_intent)                pre_action_dom = get_accessibility_tree(state.page)        # Гибридный шаг: агент дает координаты, драйвер делает мгновенный клик    execute_cdp_action(action_intent.coordinates)        new_state = capture_state()    validation = vlm_validator.verify_transition(state.screenshot, new_state.screenshot, action_intent)        if validation.confidence_score < 0.95:        rollback_dom_state(pre_action_dom)        raise AgentHallucinationError(f"Сбой консистентности: {validation.reason}")                return new_state

Взрослый паттерн эксплуатации — это гибрид. Агент применяется как оптический распознаватель в моменты, когда падает основной RPA. Он смотрит на измененный экран, вычисляет новые селекторы на лету, а само действие исполняет классический, детерминированный движок. Агент думает. Скрипт бьет.

Безопасность экрана и матрица принятия решений

Добавьте сюда суровую реальность 152-ФЗ. Экран сотрудника бэкофиса переполнен персональными данными, выписками и сканами паспортов. Гонять эти скриншоты по API в публичные облака нельзя. Требуется локальный инференс тяжелой модели, что влечет за собой закупку серверного железа с GPU, ломая красивую экономику бесплатного внедрения.

Появляется совершенно новый вектор атак — визуальный prompt injection. Злоумышленник пишет в поле комментария к заявке мелким шрифтом команду перевести деньги на другой счет. Бот считывает экран, поглощает текст в единый контекст рассуждения и исполняет команду. Наш подход в MoranaLabs исключает работу автономных UI-агентов на реальных рабочих станциях без аппаратной или программной изоляции. Контейнеризация браузерных сессий с доступом строго к целевому домену — базовый гигиенический минимум.

Где эта сложная система окупается прямо сейчас? Парсинг кабинетов мелких поставщиков, где каждый выставляет счета в уникальном интерфейсе. Выгрузка данных из легаси-ERP без API, где интерфейс похож на панель управления атомным реактором. Мониторинг площадок с агрессивной защитой от скрапинга и плавающим DOM-деревом.

Определите частоту слома верстки в ваших процессах, стоимость часа простоя отдела разработки на фиксацию скриптов и цену ошибки модели. Если процесс детерминирован и не меняется годами — пишите код на Python. Если интерфейс ломается каждую неделю, а цена сбоя копеечная — внедряйте скриншот-агента. Если объем транзакций огромен, а сбой означает потерю контракта — стройте гибридный конвейер с контрольными точками.

Проверить архитектуру ваших бизнес-процессов на прочность и целесообразность ИИ-трансформации можно через аудит автоматизации под нагрузкой. Найдем бутылочные горлышки и жестко отделим процессы, где зрячий агент спасет время, от тех, где он гарантированно сожжет вам деньги.

Computer-use агент против RPA в 2026: где UI-автоматизация бэкофиса окупается, а где разносит прод

Архитектура нестабильности: экономика пикселей

Безопасность экрана и матрица принятия решений

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

Сверка двух документов: почему это не diff, а задача сопоставления

ИИ в 1С:ERP и УНФ: чем отличается внедрение на разных конфигурациях

Локальная LLM для 1С: когда нельзя в облако

Опишите задачу — ответим как инженеры.