174,7 тыс подписчиков

Новая модель OpenAI — это не то, что вы думаете

22 сентября 202422 сен 2024

4 мин

«Проект "Strawberry"» и его иллюзии

Мне казалось, что ажиотаж вокруг ИИ начинает утихать. Однако несколько дней назад я был жестоко опровергнут, когда моя новостная и социальная ленты заполнились статьями о новой модели искусственного интеллекта (ИИ) от OpenAI под кодовым названием «Strawberry», или о1. По словам OpenAI, эта модель не просто выдаёт очевидно ложные ответы на запросы, как это делал её предшественник ChatGPT-4o, а может «думать» или «рассуждать», прежде чем отвечать. OpenAI утверждает, что это делает «Strawberry» гораздо более точной по сравнению с другими моделями. Они даже заявляют, что модель значительно улучшила свои результаты в математике, науке и программировании и может набрать 83% на отборочном экзамене для Международной математической олимпиады, тогда как ChatGPT-4o набирает лишь 13%. Кажется, это огромный скачок вперёд в технологиях ИИ? Ведь машина может думать, рассуждать и давать более точные ответы, чем большинство других систем ИИ. Но, к сожалению, это не так. «Strawberry» больше похож на трюки и маркетинговые уловки, чем на действительно революционную технологию.

«Strawberry», или о1 (оба названия звучат одинаково глупо), не появилась благодаря какому-то новому революционному алгоритму или совершенно новому подходу к ИИ, который позволил бы системе развить повышенные когнитивные способности. Вместо этого она просто автоматизирует относительно успешную существующую технику запросов, известную как «шаг за шагом» (chain-of-thought), поверх метода обучения ИИ, который существует уже довольно давно.

«Chain-of-thought» (шаг за шагом) — это техника, при которой вы просите большую языковую модель (LLM) объяснять пошагово, что она делает. Почему это полезно? Это помогает пользователю понять, что делает ИИ, позволяя выявить ошибки и улучшить запросы, исправляя их. Также это даёт ИИ возможность исправиться: он вычисляет каждый шаг на основе вашего запроса и предыдущего шага. Таким образом, если в шаге есть ошибка в фактах или логике, ИИ получает ещё один шанс исправить её. Исследования показывают, что этот метод немного повышает точность моделей ИИ.

Всё, что делает «Strawberry», — это автоматизирует этот метод. Сначала ИИ разбивает ваш запрос на простые шаги, затем передаёт их основному ИИ, заставляя его обрабатывать каждый шаг по очереди, имитируя неавтоматизированную цепочку рассуждений. OpenAI утверждает, что это похоже на то, как ИИ «думает» о вашем запросе или применяет рассуждение, но это просто маркетинговая уловка. ИИ по-прежнему не понимает, что происходит — он просто использует статистику. Основной ИИ «Strawberry» делает то же самое, что и любая другая модель; единственное, что делает его точнее, — это более доработанный интерфейс.

Но, честно говоря, это не совсем так. «Strawberry» — это не просто красивый интерфейс, наложенный на предыдущую модель OpenAI, ChatGPT-4o. ИИ, управляющий «Strawberry», обучен по-другому, что помогает ему решать более сложные задачи. Но есть подвох.

ChatGPT-4o был запрограммирован на имитацию шаблонов из обучающих данных (которые OpenAI взяла из газет, книг и социальных сетей). Большинство LLM обучаются таким образом, поскольку это лучший способ имитировать текст, похожий на человеческий. Однако для «Strawberry» OpenAI использовала другой метод обучения, известный как обучение с подкреплением, при котором система учится через вознаграждения и наказания. Вероятно, вы видели этот метод на примере анимаций, где ИИ обучается ходить через тысячи поколений. Теоретически это должно сделать ИИ лучше в решении текстовых задач по сравнению с ChatGPT-4o.

Но это только теория. Часто с ИИ бывает так, что по мере улучшения его способности решать одну задачу, его способность решать другие задачи ухудшается. Более того, обучение ИИ таким способом может ухудшить его понимание текста, способность имитировать человеческую речь или сильно повлиять на его «согласованность». «Согласованность» означает, что ИИ пытается решить задачу так, как этого хочет пользователь. Например, с помощью обучения с подкреплением люди заставляют ИИ играть в видеоигры, но ИИ начинает эксплуатировать ошибки в игре, а не играть по правилам. Между тем, ИИ, обученные так же, как ChatGPT-4o, имеют лучшую согласованность, поскольку они пытаются решать задачи, основываясь на данных, созданных нами, людьми. Таким образом, у «Strawberry» будут проблемы с согласованностью, что приведёт к ошибкам.

Фактически, OpenAI признаёт эти проблемы. В их собственном описании говорится, что «Strawberry» лучше справляется с задачами, связанными с наукой, программированием и математикой, чем ChatGPT-4o, но по многим другим вопросам ChatGPT-4o работает лучше.

Может показаться, что OpenAI могла бы объединить две модели, чтобы получить лучшее из обоих миров, но, поскольку они обучаются совершенно по-разному, это практически невозможно.

Есть и ещё одна большая проблема. Несмотря на то, что «Strawberry» не является большим шагом вперёд, как утверждает вводящий в заблуждение маркетинг OpenAI, она также не решает основные проблемы компании. Модели OpenAI, такие как ChatGPT-4o, уже достаточно качественные, чтобы их использовали миллионы людей, и им нужно не становиться более функциональными, а более эффективными! OpenAI теряет огромные суммы денег и, как ожидается, к концу года сообщит об убытках в размере $5 миллиардов из-за стоимости обучения и поддержки своих моделей. Таким образом, «Strawberry» — это шаг в неправильном направлении. Вместо того чтобы действительно решать свои проблемы, OpenAI, похоже, сосредоточена на введении в заблуждение и маркетинговых трюках, чтобы привлечь больше инвестиций и поддержать пустой ажиотаж.