13 подписчиков

OpenAI o1 - новая модель для выполнения сложных рассуждений

o1 думает, прежде чем ответить - модель может создать длинную внутреннюю цепочку мыслей, прежде чем ответить пользователю

OpenAI o1-preview уже утром появится в Upgraide.me 👨‍💻

⏩Как оценивали?

В Open Ai научили модель продуктивно мыслить, используя свою цепочку мыслей. И чем больше вы обучаете ее, тем лучше она начинает понимать и предлагать.

Чтобы подчеркнуть улучшение по сравнению с GPT-4o, модели протестировали на разнообразном наборе человеческих экзаменов и ML-эталонов. На бенчмарках показано, что o1 значительно превосходит GPT-4o на подавляющем большинстве этих задач, требующих усилий для рассуждений.

Результаты математики сравнили на AIME - экзамене, разработанном для самых способных студентов-математиков средней школы в Америке.

На экзамене AIME 2024 года GPT-4o решил в среднем только 12 % (1,8/15) задач. o1 показал 74 % (11,1/15) при решении задачи с одним образцом, 83 % (12,5/15) при консенсусе среди 64 образцов и 93 % (13,9/15) при повторном ранжировании 1000 образцов с помощью выученной функции оценки. Оценка в 13,9 балла ставит его в число 500 лучших студентов по стране и превышает отбор на Математическую олимпиаду США.

OpenAI o1 занимает 89-е место в процентах по результатам конкурсных вопросов по программированию (Codeforces), и превосходит точность человека на уровне доктора наук в решении задач по физике, биологии и химии (GPQA).

Новую модель оценили и по GPQA diamond, сложному эталону интеллекта, который проверяет знания в области химии, физики и биологии. Чтобы сравнить модели с людьми, привлекли экспертов с докторской степенью для ответов на вопросы GPQA-diamond. o1 превзошла результаты этих экспертов-людей, став первой моделью, которой удалось это сделать в принципе. Эти результаты не означают, что o1 способнее доктора философии во всех отношениях - только то, что модель лучше решает некоторые задачи, которые, как ожидается, должен решать доктор философии.

⏩Как работает?

Как человек может долго думать, прежде чем ответить на сложный вопрос, так и o1 использует цепочку мыслей при попытке решить проблему. Благодаря обучению:

1️⃣распознает и исправляет свои ошибки

🔟разбивает сложные шаги на более простые

3️⃣пробует другой подход, если текущий не работает

Чтобы проиллюстрировать способность размышлять в официальном релизе приводят цепочку размышлений o1-preview над несколькими сложными проблемами.

⏩Что выбирают?

Разработчики оценили и предпочтения людей между o1-preview и GPT-4o. В этой оценке людям показывали анонимные ответы на подсказки от двух моделей и голосовали за то, какой ответ предпочтительнее. Новая модель уже выигрывает gpt-4o с большим отрывом в категориях, требующих большого количества аргументов, таких как анализ данных, кодирование и математика. Однако в задачах, связанных с естественным языком, o1-preview не получил признания, что говорит о том, что он подходит не для всего.

⏩Видно, как модель думает?

Процесс размышлений модели в Open Ai назвали скрытой цепочкой мыслей. И именно она представляет уникальную возможность для наблюдения за моделями. Если предположить, что она верна и читаема, скрытая цепочка мыслей позволяет пользователям "читать мысли" модели и понимать их ход.

В будущем мы можем захотеть отслеживать цепочку мыслей, чтобы понять - манипулирует ли ИИ нами. Но для этого модель должна иметь свободу выражения своих мыслей в неизменном виде, поэтому в Open Ai указали, что они не могут настраивать цепочку мыслей на соответствие политике или предпочтениям пользователя. Но будет ли видна цепочка мыслей обычному пользователю тоже пока неизвестно.

#CreateUpgraide #ChatGPT #OpenAIo1

@upgraide

и ещё 1

3 минуты

12 сентября 2024