ИИ научился думать, а не просто отвечать, и это меняет всё вокруг нас. Представь, что раньше твой умный помощник мог быстро найти нужную книгу на полке, но не мог прочитать её и объяснить суть. Теперь он читает, осмысливает и делает выводы. Именно это произошло с большими языковыми моделями. Учёные из Университета Цинхуа под руководством Кайяна Чжана, Юйсинь Цзо и Бинсяна Хэ опубликовали большой обзор того, как обучение с подкреплением (RL) превращает языковые модели из "генераторов текста" в настоящие думающие системы. Что такое обучение с подкреплением в простых словах. Вспомни, как учат собаку: сделала правильно - получила лакомство, ошиблась - нет. RL работает похожим образом. Модель пробует решить задачу, получает оценку за правильность и постепенно учится делать это лучше. Раньше ИИ просто "запоминал" огромные массивы текстов. Теперь он тренируется на реальных задачах, как спортсмен перед соревнованиями. Результаты конкретные: модель решает 92% математических задач из теста GSM8K