1827 подписчиков

Zhipu представила GLM-5.1: мощнейшую open-source модель, способную выполнять автономные задачи до 8 часов подряд

ВчераВчера

3 мин

GLM-5.1 от Zhipu устанавливает новый эталон для ИИ с открытым исходным кодом благодаря 8-часовому автономному выполнению задач и первоклассному кодированию. — pandaily.com Китайская компания в сфере ИИ Zhipu AI официально выпустила GLM-5.1 — свою самую передовую флагманскую модель на сегодняшний день и одну из самых мощных моделей с открытым исходным кодом в мире. Ключевой прорыв GLM-5.1 заключается в ее способности поддерживать автономную работу над одной задачей в течение более восьми часов — это первый случай, когда модель с открытым исходным кодом достигла такого уровня длительного выполнения. В отличие от ранних моделей, предназначенных для взаимодействия на уровне минут, GLM-5.1 может самостоятельно планировать, выполнять, итерировать и, в конечном итоге, предоставлять готовые результаты инженерного уровня в рамках единого рабочего процесса. Модель также демонстрирует значительный прогресс в возможностях кодирования, что является критически важным эталоном для оценки интеллекта И

Китайская компания в сфере ИИ Zhipu AI официально выпустила GLM-5.1 — свою самую передовую флагманскую модель на сегодняшний день и одну из самых мощных моделей с открытым исходным кодом в мире.

Ключевой прорыв GLM-5.1 заключается в ее способности поддерживать автономную работу над одной задачей в течение более восьми часов — это первый случай, когда модель с открытым исходным кодом достигла такого уровня длительного выполнения. В отличие от ранних моделей, предназначенных для взаимодействия на уровне минут, GLM-5.1 может самостоятельно планировать, выполнять, итерировать и, в конечном итоге, предоставлять готовые результаты инженерного уровня в рамках единого рабочего процесса.

Модель также демонстрирует значительный прогресс в возможностях кодирования, что является критически важным эталоном для оценки интеллекта ИИ. По трем основным отраслевым бенчмаркам — SWE-Bench Pro (исправление реальных ошибок в ПО), Terminal-Bench 2.0 (решение задач в командной строке) и NL2Repo (генерация репозитория «под ключ») — GLM-5.1 занимает третье место в мире, первое среди китайских моделей и первое среди моделей с открытым исходным кодом.

Примечательно, что в SWE-Bench Pro — который широко считается наиболее реалистичным тестом инженерных способностей в области ПО — GLM-5.1 показала новый лучший мировой результат, превзойдя ведущие проприетарные модели, такие как GPT-5.4 и Claude Opus 4.6. Бенчмарк требует от моделей находить и исправлять сложные ошибки в реальных репозиториях GitHub, что делает его одним из самых жестких показателей реальной производительности в кодировании.

Zhipu утверждает, что следующей границей в оценке ИИ является уже не только то, насколько модель «умна», но и то, как долго она может работать эффективно — ее производительность в задачах с длительным горизонтом. Эти задачи требуют не просто обработки больших кодовых баз, но и навигации по последовательности сложных инженерных решений: запуску тестов, выявлению узких мест, пересмотру стратегий и повторному тестированию — что отражает полный цикл «эксперимент → анализ → оптимизация», типичный для инженеров-людей.

Согласно стандартам оценки METR, GLM-5.1 является единственной моделью с открытым исходным кодом, способной поддерживать 8 часов непрерывной работы, и одной из немногих в мире — наряду с Claude Opus 4.6 — продемонстрировавших эту возможность. Долгосрочная цель Zhipu — создать полностью автономных агентов, способных работать круглосуточно (24/7), непрерывно декомпозируя цели, выполняя задачи, самооцениваясь и развиваясь без вмешательства человека.

Этот сдвиг сигнализирует о более широкой трансформации: по мере того как ИИ переходит от предоставления «ответов» к предоставлению «проектов», он может коренным образом изменить индустрии разработки программного обеспечения, корпоративного ПО и высокопроизводительных вычислений.

Технически, проблема заключается не просто в продлении времени работы, а в сохранении эффективности с течением времени. Ранние модели, включая GLM-5, часто достигали плато после первоначального прогресса, многократно применяя известные оптимизации без адаптации стратегий. GLM-5.1 решает эту проблему путем активного выявления узких мест и смены подходов — демонстрируя цикл оптимизации «прорыв и исправление», который отражает более глубокую способность к решению проблем.

Например, в задачах оптимизации векторных баз данных модель демонстрирует поэтапные улучшения: когда прогресс останавливается, она анализирует логи, выявляет ограничения и переходит к структурно иным стратегиям — таким как переход от сканирования всей базы данных к индексации IVF или от одинарной точности к квантованным подходам — прежде чем уточнить результаты.

В более открытых задачах, таких как создание настольной системы Linux, где успех не определяется единым показателем, GLM-5.1 демонстрирует ранние признаки самооценки — оценивая свои результаты по функциональности, удобству использования и согласованности дизайна, и соответствующим образом итерируя. Это знаменует собой шаг к более обобщенному автономному интеллекту.

Zhipu признает, что продление «эффективного времени работы» остается основной проблемой, включая преодоление ограничений контекста, поддержание согласованности при тысячах вызовов инструментов, выход из локальных оптимумов и разработку надежной самооценки при отсутствии четких метрик. GLM-5.1 представляет собой важный шаг вперед в этом направлении.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи

Производственные технологии

99 тыс интересуются