13 подписчиков
OpenAI o1 - новая модель для выполнения сложных рассуждений
o1 думает, прежде чем ответить - модель может создать длинную внутреннюю цепочку мыслей, прежде чем ответить пользователю
⏩Как оценивали?
В Open Ai научили модель продуктивно мыслить, используя свою цепочку мыслей. И чем больше вы обучаете ее, тем лучше она начинает понимать и предлагать.
Чтобы подчеркнуть улучшение по сравнению с GPT-4o, модели протестировали на разнообразном наборе человеческих экзаменов и ML-эталонов. На бенчмарках показано, что o1 значительно превосходит GPT-4o на подавляющем большинстве этих задач, требующих усилий для рассуждений.
Результаты математики сравнили на AIME - экзамене, разработанном для самых способных студентов-математиков средней школы в Америке.
На экзамене AIME 2024 года GPT-4o решил в среднем только 12 % (1,8/15) задач. o1 показал 74 % (11,1/15) при решении задачи с одним образцом, 83 % (12,5/15) при консенсусе среди 64 образцов и 93 % (13,9/15) при повторном ранжировании 1000 образцов с помощью выученной функции оценки. Оценка в 13,9 балла ставит его в число 500 лучших студентов по стране и превышает отбор на Математическую олимпиаду США.
OpenAI o1 занимает 89-е место в процентах по результатам конкурсных вопросов по программированию (Codeforces), и превосходит точность человека на уровне доктора наук в решении задач по физике, биологии и химии (GPQA).
Новую модель оценили и по GPQA diamond, сложному эталону интеллекта, который проверяет знания в области химии, физики и биологии. Чтобы сравнить модели с людьми, привлекли экспертов с докторской степенью для ответов на вопросы GPQA-diamond. o1 превзошла результаты этих экспертов-людей, став первой моделью, которой удалось это сделать в принципе. Эти результаты не означают, что o1 способнее доктора философии во всех отношениях - только то, что модель лучше решает некоторые задачи, которые, как ожидается, должен решать доктор философии.
⏩Как работает?
Как человек может долго думать, прежде чем ответить на сложный вопрос, так и o1 использует цепочку мыслей при попытке решить проблему. Благодаря обучению:
1️⃣распознает и исправляет свои ошибки
🔟разбивает сложные шаги на более простые
3️⃣пробует другой подход, если текущий не работает
⏩Что выбирают?
Разработчики оценили и предпочтения людей между o1-preview и GPT-4o. В этой оценке людям показывали анонимные ответы на подсказки от двух моделей и голосовали за то, какой ответ предпочтительнее. Новая модель уже выигрывает gpt-4o с большим отрывом в категориях, требующих большого количества аргументов, таких как анализ данных, кодирование и математика. Однако в задачах, связанных с естественным языком, o1-preview не получил признания, что говорит о том, что он подходит не для всего.
⏩Видно, как модель думает?
Процесс размышлений модели в Open Ai назвали скрытой цепочкой мыслей. И именно она представляет уникальную возможность для наблюдения за моделями. Если предположить, что она верна и читаема, скрытая цепочка мыслей позволяет пользователям "читать мысли" модели и понимать их ход.
В будущем мы можем захотеть отслеживать цепочку мыслей, чтобы понять - манипулирует ли ИИ нами. Но для этого модель должна иметь свободу выражения своих мыслей в неизменном виде, поэтому в Open Ai указали, что они не могут настраивать цепочку мыслей на соответствие политике или предпочтениям пользователя. Но будет ли видна цепочка мыслей обычному пользователю тоже пока неизвестно.
#CreateUpgraide #ChatGPT #OpenAIo1
3 минуты
12 сентября 2024