Найти в Дзене
ПомогИИ

Прорыв в математике, кодинге и мультимодальных задачах

ИИ научился думать, а не просто отвечать, и это меняет всё вокруг нас. Представь, что раньше твой умный помощник мог быстро найти нужную книгу на полке, но не мог прочитать её и объяснить суть. Теперь он читает, осмысливает и делает выводы. Именно это произошло с большими языковыми моделями. Учёные из Университета Цинхуа под руководством Кайяна Чжана, Юйсинь Цзо и Бинсяна Хэ опубликовали большой обзор того, как обучение с подкреплением (RL) превращает языковые модели из "генераторов текста" в настоящие думающие системы. Что такое обучение с подкреплением в простых словах. Вспомни, как учат собаку: сделала правильно - получила лакомство, ошиблась - нет. RL работает похожим образом. Модель пробует решить задачу, получает оценку за правильность и постепенно учится делать это лучше. Раньше ИИ просто "запоминал" огромные массивы текстов. Теперь он тренируется на реальных задачах, как спортсмен перед соревнованиями. Результаты конкретные: модель решает 92% математических задач из теста GSM8K
Оглавление

ИИ научился думать, а не просто отвечать, и это меняет всё вокруг нас.

Представь, что раньше твой умный помощник мог быстро найти нужную книгу на полке, но не мог прочитать её и объяснить суть. Теперь он читает, осмысливает и делает выводы. Именно это произошло с большими языковыми моделями. Учёные из Университета Цинхуа под руководством Кайяна Чжана, Юйсинь Цзо и Бинсяна Хэ опубликовали большой обзор того, как обучение с подкреплением (RL) превращает языковые модели из "генераторов текста" в настоящие думающие системы.

В чем суть технологии?

Что такое обучение с подкреплением в простых словах. Вспомни, как учат собаку: сделала правильно - получила лакомство, ошиблась - нет. RL работает похожим образом. Модель пробует решить задачу, получает оценку за правильность и постепенно учится делать это лучше. Раньше ИИ просто "запоминал" огромные массивы текстов. Теперь он тренируется на реальных задачах, как спортсмен перед соревнованиями. Результаты конкретные: модель решает 92% математических задач из теста GSM8K против 78% без такого обучения. Это не просто цифры - это разница между двоечником и отличником.

Вот как это работает для людей далёких от программирования.

Учитель математики получает ассистента, который не просто выдаёт готовый ответ, а объясняет ход решения шаг за шагом. Врач использует систему, которая анализирует симптомы последовательно и честно говорит, где она не уверена. Бухгалтер получает помощника, который не просто копирует цифры, а проверяет логику расчётов. Модель Claude-4.1-Opus успешно решает 62% реальных программных задач, тогда как предыдущая версия справлялась только с 45%. Кстати, это означает, что ИИ-помощник для составления договоров или анализа документов становится в полтора раза надёжнее.

Новые модели развиваются в нескольких направлениях одновременно. Skywork-OR1 улучшила точность в математике на 18% благодаря умным смесям данных. Minimax-M1 научился балансировать между скоростью и точностью. Llama-Nemotron-Ultra и Magistral 24B снизили время ответа на 35%, что важно для приложений реального времени. Модели Kimi K2, GLM4.5 и DeepSeek-V3.5 работают сразу с текстом, изображениями и видео, повышая общую эффективность на 28%. Модели Step3 и GLM-4.5V набирают больше 85% на тестах зрительного понимания и 72% на видеозаданиях - это значит, что ИИ учится понимать движущиеся образы почти как человек.

Честно говоря, масштаб этих изменений впечатляет

Удвоение вычислительной мощности при обучении даёт двукратное улучшение качества рассуждений. В кодировании показатель успешного написания программ вырос до 89%. В робототехнике манипуляторы под управлением таких моделей распознают объекты с точностью 95% даже при плохом качестве видео. В играх ИИ-агенты осваивают сложные стратегии через самообучение: в StarCraft II победный показатель против людей достигает 90%. Вообще, это тот момент, когда технология переходит из лаборатории в реальные устройства рядом с нами.

Есть один честный нюанс

Всё это требует серьёзных вычислительных ресурсов, и авторы обзора прямо об этом говорят. Для рядового пользователя это означает, что мощные модели пока живут в облаке, а не на личном телефоне. Но прогресс здесь очень быстрый: те же Llama-Nemotron-Ultra уже оптимизированы специально под экономию ресурсов, и через год-два граница между "мощный облачный ИИ" и "удобный карманный помощник" заметно сотрётся.

Думающий ИИ - это не угроза, это инструмент, который наконец-то дорос до настоящей помощи. Тот же инструмент, что помогает спортсмену улучшить технику или врачу точнее поставить диагноз, теперь доступен каждому. Пользуйся им смело.

Пока нейросети не научились читать наши мысли и сами ставить себе лайки, мне всё еще нужна ваша поддержка! Подписывайтесь, чтобы не пропускать новые разборы - обещаю и дальше переводить с гиковского на русский.

Если статья зашла, смело жмите лайк и перешлите тому самому другу, который вечно не в теме. Ну и пишите в комменты: что вообще думаете, ИИ превзойдет человека?