В середине июня 2026 китайская Z.ai (бывшая Zhipu AI) выложила в открытый доступ GLM-5.2 — модель, которая в программировании и агентных задачах подошла к топовым закрытым моделям заметно ближе, чем любая открытая до неё. Ниже — разбор по фактам: что внутри, какие цифры выдержат проверку, какие требуют осторожности, и что этот релиз реально даёт бизнесу. Договоримся сразу: где число пришло от самой Z.ai, мы это помечаем; где замерил независимый источник — указываем его. Выдуманных метрик здесь нет.
Коротко
- Что это. Открытая (веса под лицензией MIT) MoE-модель на ~753 млрд параметров, из которых ~40 млрд активны на каждый токен. Контекст — 1 млн токенов.
- Сила. По независимому «индексу интеллекта» Artificial Analysis — верхняя строка среди открытых моделей. На открытых кодинг-бенчах уверенно ведёт среди открытых и местами вплотную подходит к Claude Opus 4.8 и GPT-5.5.
- Цена. У хостеров — $1.40 / $4.40 за миллион токенов вход/выход (замер Artificial Analysis); по оценке VentureBeat — порядка вшестеро дешевле GPT-5.5 на длинно-горизонтном кодинге.
- Где осторожно. Полного официального набора бенчмарков Z.ai для 5.2 не публиковала — часть чисел это самозамеры. На самом длинном горизонте (SWE-Marathon) модель вдвое слабее Opus 4.8. Заявку «обучена только на чипах Huawei, без NVIDIA» независимо никто не подтвердил.
- Зачем бизнесу. Открытые веса позволяют держать фронтир-уровень кодинга внутри собственного периметра: данные остаются у вас, доступ не зависит от чужого решения. Цена этого — серверное железо и собственная эксплуатация. Подробно — ниже.
Откуда взялась и куда встаёт в линейке
GLM-5.2 — четвёртая итерация пятого поколения меньше чем за полгода. Темп у Z.ai высокий: новая версия выходит примерно раз в 8–10 недель. По сообщениям, в январе 2026 компания провела IPO в Гонконге (~$558 млн) — это часть топлива для такой гонки.
Раскатка ступенчатая: доступ платным коде-клиентам открыли около 13 июня, открытые веса под MIT выложили 16–17 июня (llm-stats указывает 16-е, официальный блог на HuggingFace — 17-е).
| Версия | Дата | Всего | Активных | Внимание / контекст | Заметка |
|---|---|---|---|---|---|
| GLM-4.5 | июль 2025 | 355B | 32B | — | работала на 8× NVIDIA H20 |
| GLM-4.6 | сент. 2025 | н/д | н/д | — | первая на FP8 + Int4 на чипах Cambricon |
| GLM-5 | 11 фев. 2026 | 744B | 40B | DSA, 200K | Z.ai заявляет обучение на Huawei Ascend (независимо не подтверждено) |
| GLM-5.1 | 8 апр. 2026 | 744B | 40B | DSA, 200K | доводочный релиз |
| GLM-5.2 | 16–17 июня 2026 | ~753B | ~40B | DSA + IndexShare, 1M | открытые веса MIT |
DSA — DeepSeek Sparse Attention. Параметры GLM-5/5.1 — по официальному репозиторию; даты и спецификации линейки — по обзорам и репозиторию Z.ai.
Архитектура: где реальное инженерное содержание
Само по себе число «753 миллиарда» в стойку ничего не добавляет. Практический смысл — в трёх инженерных решениях, которыми Z.ai душит стоимость длинного контекста.
MoE с разреженной активацией. Из ~753 млрд параметров на каждый токен работают только ~40 млрд (Mixture-of-Experts). По качеству модель сопоставима с очень крупной, при этом стоимость вычислений на токен ближе к гораздо меньшей. Важная оговорка для железа: вся махина должна лежать в памяти целиком, поэтому требования к VRAM считаются по полному размеру модели; активные 40B на объём памяти не влияют.
DeepSeek Sparse Attention (DSA). Механизм внимания, унаследованный от GLM-5, который удерживает длинный контекст без квадратичного взрыва вычислений. Он и сделал реальным переход от 200K к 1M токенов.
IndexShare. Главная новинка 5.2. Индексатор разреженного внимания переиспользуется один на каждые четыре слоя, что срезает вычисления (FLOPs) на токен в 2.9 раза на пределе в 1 млн токенов (заявляет Z.ai). Смысл: длинный контекст у трансформера дорожает нелинейно, и это попытка сбить именно эту цену.
Multi-token prediction (MTP). Слои спекулятивного декодирования; по данным Z.ai, acceptance rate выше примерно на 20%, что ускоряет генерацию. Это внутренняя пропускная характеристика, заявленная вендором и независимо не проверенная.
Важно держать в голове: и «−2.9× FLOPs» от IndexShare, и «+20% acceptance» от MTP — это теоретические/внутренние оценки производительности от самой Z.ai. Единственная сторонняя цифра реальной скорости — 96.2 токена/с от Artificial Analysis (см. раздел метрик), и она ставит модель примерно в середину таблицы. Фактическая пропускная способность сильно зависит от вашего серверного стека и квантизации.
Отдельного внимания заслуживает заявленная Z.ai устойчивость на большом окне: 1 млн токенов, который «стабильно держит длинные грязные траектории агента». Большое окно поддерживают многие модели; сложность обычно в другом — удержать связность на нём в длинной агентной сессии. Для RAG и агентных пайплайнов это свойство имеет практический вес. Независимого long-context-бенчмарка (класса RULER, needle-in-haystack, LongBench) для 5.2 пока нет — заявка об устойчивости остаётся вендорской, проверять её нужно на своей нагрузке.
| Параметр | Значение | Источник |
|---|---|---|
| Всего параметров | ~753B | Z.ai / llm-stats |
| Активных на токен | ~40B (MoE) | Z.ai / репозиторий |
| Контекст | 1 000 000 токенов | Z.ai |
| Макс. выход | до 131 072 токенов (у хостеров варьируется: где-то меньше, где-то больше) | Z.ai / провайдеры |
| Внимание | DSA + IndexShare | репозиторий Z.ai |
| Режимы «мышления» | High (по умолчанию) и Max (для сложного, дороже по латенси) | Z.ai |
| Лицензия весов | MIT (репозиторий кода — Apache-2.0) | Z.ai / HF |
| Фреймворки инференса | SGLang, vLLM, Transformers, KTransformers, Unsloth; Ascend — через vLLM-Ascend, xLLM, SGLang | репозиторий |
Что нужно, чтобы поднять её у себя
Раздел, без которого вся история про «фронтир в периметре» остаётся лозунгом. MoE-модель держит в памяти все ~753 млрд параметров, поэтому требования к VRAM считаются по полному размеру. Грубая, но честная арифметика (объём весов = число параметров × байт на параметр), без учёта KV-кэша:
- BF16 (2 байта): ~1.5 ТБ только под веса. На практике — узел уровня 8× ускорителей по 192 ГБ (например, MI300X-класс) или несколько узлов.
- FP8 (1 байт): ~750 ГБ. Помещается на один узел 8× по 141–192 ГБ (H200/MI300X-класс) с запасом под KV-кэш.
- Int4 (0.5 байта): ~375 ГБ. Влезает на меньшую конфигурацию, но с оговоркой по качеству (ниже).
Поверх весов идёт KV-кэш, и на длинном контексте он съедает память агрессивно: окно в сотни тысяч токенов добавляет десятки и сотни гигабайт. То есть заявленный 1 млн токенов — это не только про умение модели, но и про дополнительный бюджет VRAM, который надо закладывать отдельно. Вывод по железу простой: это серверный инференс уровня многокарточного узла дата-центра. Камеры на линии и бортовые модули такую модель не запускают.
Квантизация: чем платишь за то, что влезло
Опубликованные бенчмарки сняты на полной/нативной точности. Чтобы модель уместилась на доступное железо, на практике берут FP8 или Int4 — и за это есть своя цена:
- FP8 — примерно половина VRAM, качество почти без потерь. Рабочий компромисс по умолчанию.
- Int4 — около четверти VRAM, но измеримая потеря качества, особенно заметная на длинных агентных траекториях, где ошибки накапливаются.
Ключевое предупреждение: числа из таблиц бенчмарков получены не на Int4. Независимых замеров качества GLM-5.2 на агрессивной квантизации пока нет, и закладывать «как в бенчах» при Int4 — ошибка. Это проверяется на вашей задаче. Фреймворки Unsloth и KTransformers в списке поддержки стоят именно ради такой квантизации, и тестировать её на своём пайплайне нужно до выбора железа.
Метрики: что показывает Z.ai и что меряют независимо
Сначала честная рамка. Z.ai не выложила полный официальный набор бенчмарков для 5.2 — опубликованы выборочные числа, независимая проверка ещё догоняет. Самозамеры рассматриваем как заявку вендора, требующую независимой проверки. Все значения в таблице ниже — самозамеры Z.ai (по официальному блогу на HuggingFace), независимо не воспроизведённые; особенно осторожно стоит читать почти-потолочный AIME 99.2.
| Бенчмарк | GLM-5.2 | Для сравнения |
|---|---|---|
| Terminal-Bench 2.1 (Terminus-2) | 81.0 | GLM-5.1 ~62–63; Opus 4.8 ~85.0 |
| SWE-bench Pro | 62.1 | GLM-5.1 — 58.4 |
| FrontierSWE | 74.4 | вплотную к Opus 4.8 (по самозамеру Z.ai) |
| PostTrainBench | 34.3 | база сравнения не раскрыта — число интерпретируем осторожно |
| SWE-Marathon (длинный горизонт) | 13.0 | Opus 4.8 — 26.0 |
| AIME 2026 (математика) | 99.2 | GLM-5 база — 92.7 |
| GPQA-Diamond (наука) | 91.2 | GLM-5 база — 86.0 |
Картина по этим числам читается так. На коротких и средних задачах кодинга GLM-5.2 близко к закрытому фронтиру, местами обходит его. На самом длинном горизонте всё иначе: SWE-Marathon — 13 против 26 у Opus 4.8, вдвое слабее. Именно этот результат вендор в заголовок не выносит. Чем длиннее и грязнее задача, тем заметнее разрыв.
Независимые числа (Artificial Analysis, выборка из 92 моделей, вариант «max»):
| Метрика | Значение |
|---|---|
| Intelligence Index | 51 — верхняя строка среди открытых моделей в выборке |
| Скорость вывода | 96.2 токена/с — около середины выборки (№22 из 92) |
| Задержка до первого токена | 1.37 с (на небольшом контексте, не на 1M) |
| Цена | $1.40 / $4.40 за 1M токенов (вход / выход) |
По интеллект-индексу — топ среди открытых, сопоставимо с закрытыми. По скорости вывода — около середины таблицы. Важная оговорка по контексту: 1.37 с до первого токена замерены на небольшом окне; на контексте, близком к 1 млн, и время до первого токена, и память под KV-кэш растут кратно. Для интерактивных сценариев скорость стоит проверить под свою нагрузку и свою длину контекста.
Цена и TCO без вранья
$1.40 за миллион входных токенов и $4.40 за миллион выходных у сторонних хостеров (замер Artificial Analysis). По оценке VentureBeat — порядка вшестеро дешевле GPT-5.5 на длинно-горизонтном кодинге. Более резкие формулировки про «на порядок дешевле» проверяемого источника не имеют, поэтому здесь их не закладываем.
Оговорка, которой в ценниках не пишут: дешёвая цена за токен относится к хостед-API. При установке модели к себе ради периметра расходы смещаются на GPU и эксплуатацию 24/7. Грубая логика окупаемости такая: берёте стоимость аренды или владения узлом 8× ускорителей в месяц и делите на смешанную цену за токен из API — получаете порядок месячного объёма инференса, выше которого своя инсталляция начинает выигрывать. Конкретные числа зависят от ваших цен на железо и профиля нагрузки, поэтому считаем их под проект, без универсального ответа. Своя инсталляция окупается на большом постоянном потоке инференса в долгую. На пилоте, малом объёме и разовых задачах в запуске почти всегда дешевле и быстрее облачный вызов.
Спорные места — читаем внимательно
«Обучена только на Huawei Ascend, без NVIDIA». Это заявление самой Z.ai, и независимо его никто не подтвердил. Звучит громко из-за геополитики: Zhipu, по данным обзоров, с января 2025 в Entity List США, доступ к топовым ускорителям NVIDIA ограничен. По репозиторию проверяемо одно — развёртывание на Ascend NPU (есть vLLM-Ascend, xLLM, SGLang). Тренировка на Ascend и инференс на Ascend — разные утверждения. Инференс подтверждается кодом; тренировка пока остаётся заявлением компании. Как факт берём только инференс.
Методология бенчмарков. К самозамерам GLM-5, и теперь 5.2, уже звучали вопросы по методике; полного официального набора для 5.2 нет. Речь не про недобросовестность — вывод простой: цифры стоит перепроверять на своей задаче, прежде чем закладывать в решение.
Лицензия. Веса заявлены под MIT, репозиторий кода — под Apache-2.0. Обе пермиссивные, региональных замков нет. Для бизнеса вывод один: модель можно легально поставить у себя и использовать коммерчески.
Безопасность открытых весов — обратная сторона владения
Открытые веса дают независимость, и вместе с ней — ответственность, которую при работе через чужой API несёт вендор. Что переходит на вас:
- Защита и фильтрация. У self-hosted модели нет вендорского модерационного слоя. Сопротивляемость джейлбрейкам и контроль того, что модель выдаёт, становятся вашей задачей. Характерно, что директиву об ограничении доступа к моделям Anthropic американский регулятор обосновывал как раз риском обхода защит.
- Происхождение и цепочка поставки. Это весовой блоб больше терабайта от лаборатории из Entity List. Скачивать стоит из официального репозитория на HuggingFace и сверять контрольные суммы.
- Обновления безопасности. Self-host — это замороженный снапшот. Апстрим-патчей, как у управляемого сервиса, здесь нет; обновление до новой версии — ваша операция.
Геополитический контекст: почему «открытость» сейчас весит больше обычного
12 июня 2026 Министерство торговли США экспортной директивой обязало Anthropic закрыть доступ к топовым моделям Fable 5 и Mythos 5 для всех иностранных граждан — со ссылкой на нацбезопасность и потенциальный обход защит. Anthropic подчинилась и отключила клиентов (это подтверждено заявлением самой компании и публикациями Bloomberg, CNBC, Fortune). Fable 5 и Mythos 5 — фронтир-модели Anthropic того же класса, что и Opus 4.8, который мы используем выше как ориентир в бенчмарках. GLM-5.2 вышел под лицензией MIT и доступен без региональных ограничений — несколькими днями позже.
Прямой причинно-следственной связи между этими событиями мы не утверждаем. Но контраст показателен: доступ к закрытой модели можно потерять по решению регулятора за один день; модель, веса которой лежат у вас на сервере, отключить извне нельзя. Для бизнеса с длинным горизонтом планирования это вопрос непрерывности, без идеологии вокруг открытого кода.
А что у других открытых моделей
«Сильнейшая открытая» — это про индекс Artificial Analysis, и честно держать в уме, что у self-host есть прямые альтернативы, против которых статья сравнивает GLM-5.2 не на полном наборе бенчей:
- DeepSeek — тоже MoE и общая с GLM линия по разреженному вниманию (DSA), тоже китайская лаборатория со схожими геополитическими вводными. Прямой конкурент по классу.
- Qwen 3 — под лицензией Apache-2.0, широкий диапазон размеров (включая модели, которые разворачиваются на куда более скромном железе), сильна в кодинге.
Где GLM-5.2 ведёт — это верхняя строка по интеллект-индексу Artificial Analysis в своём классе. Где конкуренты могут выигрывать — меньшие разворачиваемые размеры, более зрелые независимые замеры, нюансы лицензий. Полноценного независимого head-to-head между ними по одной методике пока мало, и для конкретного выбора это тоже тестируется на своей задаче.
Что это значит для бизнеса — позиция MoranaLabs
Главный практический сдвиг релиза в одном: впервые открытая модель такого уровня кодинга стала пригодной для работы внутри собственного периметра. Позиция на лидерборде вторична — лидеры там меняются каждые два месяца. Распакуем, что отсюда следует.
1. Данные остаются у вас. Открытые веса разворачиваются на собственном железе, и запросы к модели не покидают ваш контур. Для банка, медицины, режимного объекта и всего, что живёт под 152-ФЗ, это нередко определяет саму возможность использовать такую модель; удобство здесь вторично. Раньше приходилось выбирать: фронтир-качество только через чужое облако либо собственная инсталляция с заметно более слабой моделью. Теперь этот разрыв сузился.
2. Независимость от чужого решения. История с отключением моделей Anthropic для иностранцев — готовый сценарий риска. Модель, которую вы держите сами, у вас не отберут директивой и не закроют сменой тарифной политики вендора. Для критичных процессов это вопрос непрерывности и страховки рисков, без идеологии вокруг опенсорса.
3. Это серверный инференс, не edge. Цифры из раздела про железо показывают масштаб: многокарточный узел дата-центра, сотни гигабайт VRAM. «Открытые веса, можно self-host» и «edge» — это про разное железо. Прочитать заголовок и решить «ставим новую нейронку на железку в цеху» здесь нельзя: edge-устройство такую модель не потянет. Архитектуру выбираем под задачу.
4. TCO считаем честно. Низкая цена за токен — это API. Своя инсталляция ради периметра — это капзатраты на GPU плюс эксплуатация; окупается она на большом постоянном потоке инференса в долгую. На пилоте и малом объёме облако выгоднее по запуску и стоимости. Навязывать self-host там, где хватило бы облачного вызова, — такой же оверинжиниринг, как и обратная крайность тянуть всё в облако вопреки требованиям к периметру.
5. Бенчмарк — не ваш прод. Высокий результат на SWE-bench не гарантирует, что модель решит вашу доменную агентную задачу. Длинно-горизонтный кодинг-бенч плохо переносится на ваш пайплайн с вашими данными; разрыв на SWE-Marathon это прямо показывает. Заявленный 1M контекст, который «держит длинные траектории», нужно проверять на вашей собственной нагрузке.
Когда GLM-5.2 — правильный выбор, а когда нет
| Брать (self-host открытой модели) | Выбрать другое |
|---|---|
| Данные нельзя выпускать за периметр (152-ФЗ, режим, приватность) | Пилот, MVP, проверка гипотезы — дешевле облачный API |
| Большой постоянный поток инференса 24/7 | Редкие, разовые задачи — узел с GPU не отобьётся |
| Кодинг и агентные пайплайны как ядро продукта | Нужна минимальная латенси в интерактиве — проверьте скорость и контекст |
| Критична независимость от вендора и его доступа | Нужен потолок качества на самых длинных задачах — закрытый фронтир пока впереди |
| Есть инженерная команда под эксплуатацию инференса | Нет ресурса держать инференс и обновления безопасности — управляемый облачный вызов проще |
И отдельная операционная оговорка: быстрый темп релизов работает в обе стороны. Для self-host это значит, что вы фиксируете снапшот и владеете им сами; вендорского LTS у открытой модели нет, обновление версии — ваша плановая работа.
Итог
GLM-5.2 — по независимому индексу Artificial Analysis сильнейшая на сегодня открытая модель, конкурентная закрытому фронтиру в кодинге при кратно меньшей цене, с честно различимым проседанием на самых длинных задачах и одной непроверяемой заявкой про железо для обучения. Практическая ценность для бизнеса в том, что фронтир-уровень кодинга впервые комфортно живёт внутри собственного периметра. Цена входа — серверное железо, квантизация с её компромиссами и собственная эксплуатация, включая безопасность. Дальше — обычная инженерия: задача, железо, TCO и проверка на своих данных.
MoranaLabs — R&D-лаборатория прикладного ИИ. Делаем нейросети на заказ — edge и облако, любая отрасль, любой класс задач. Архитектуру выбираем под задачу.