Подход позволяет искусственному интеллекту осваивать новые навыки и знания без подсказок со стороны человека подобно тому, как маленькие дети учатся играть в незнакомые им игры
МОСКВА, 17 сентября. /ТАСС/. Китайские математики и программисты разработали и опубликовали в открытом виде новый подход для самообучения передовых систем ИИ, который позволяет им самостоятельно осваивать новые навыки и знания без подсказок со стороны человека подобно тому, как маленькие дети учатся играть в незнакомые им игры. Описание подхода, уже использованного при разработке нейросети DeepSeek-R1, было опубликовано в статье в журнале Nature.
"Создание искусственного интеллекта, способного логически рассуждать, является одной из главных задач для разработчиков систем машинного обучения. Мы обнаружили, что данные навыки можно в значительной степени развить у больших языковых моделей, используя классические методы обучения с подкреплением, что снижает необходимость в разметке обучающих данных и ведет к спонтанному появлению у ИИ способности к верификации выводов и самокритике", - говорится в исследовании.
К такому выводу пришла группа китайских математиков и программистов из компании DeepSeek в процессе разработки передовой системы ИИ DeepSeek-R1, которая была представлена публике в январе 2025 года. Ее создатели представили публике ключевой компонент этой большой языковой модели - уникальную систему ее обучения - и опубликовали ее, а также другие важные элементы данной системы ИИ, в открытом доступе на портале GitHub, откуда ее может скачать любой желающий для использования на своем компьютере.
Эта система обучения, как отмечают ученые DeepSeek, отличается от уже существующих подходов для тренировки больших языковых моделей тем, что в нее встроен специальный набор "игровых" алгоритмов, который позволяет разрабатываемой системе ИИ оценивать корректность подготовленных ответов на запросы и получать за это условные баллы. Математики при этом встроили в разрабатываемую модель стремление получать максимальное количество баллов, а также заставили ее выдавать не только итоговый ответ, но и записывать промежуточные шаги в форме текста.
В качестве обучающего материала исследователи избрали наборы тестов, которые используются Математической ассоциацией Америки для проверки знаний школьников и при подготовке к Международной математической олимпиаде. Изначально, первые версии DeepSeek-R1 справлялись с этими задачами не самым успешным образом - они решали порядка 20-30% из них, что ниже средних результатов для школьников, однако через несколько тысяч сессий обучения ИИ начал решать 70-85% задач и значительно превзошел уровень человека.
Благодаря наличию у ИИ способности записывать логику своих действий, ученые смогли проследить за интеллектуальной эволюцией DeepSeek-R1, что раскрыло несколько интересных фактов. В частности, у нейросети спонтанно возникло умение самостоятельно перепроверять выкладки и использовать ранее примененные удачные приемы, а также при этом некоторые вариации модели начали смешивать английский и китайский язык в процессе "мышления", а также оставлять очень пространные заметки длиной в десятки тысяч слов. Все это представляет огромный интерес для дальнейшего изучения в контексте разработки "мыслящих" ИИ, подытожили ученые.
О нейросети DeepSeek-R1
В январе 2025 года компания из КНР DeepSeek выпустила новую версию нейросети R1, которая, как утверждается, превосходит передовые версии мировых конкурентов. При этом разработчики китайской большой языковой модели указывают, что потратили всего $5,6 млн и использовали устаревшие чипы для обучения ИИ. DeepSeek-R1 быстро набрал популярность среди пользователей по всему миру и привел к колебаниям на фондовых рынках из-за опасений инвесторов, что стоимость американских компаний-лидеров в сфере ИИ переоценена.