ИИ на самом деле становится хуже.
Пузырь вокруг ИИ полностью основан на убеждении, что искусственный интеллект со временем станет значительно лучше. Именно поэтому такие инвесторы, как Microsoft и JP Morgan, вкладывают десятки миллиардов долларов в компании, занимающиеся ИИ. Не потому, что их нынешние модели особенно хороши, а потому что предполагается, что будущие модели будут настолько мощными, что смогут заменить огромное количество работников и принести огромную прибыль, и они хотят получить свою долю от этих будущих доходов и контроля на рынке. Однако эта потенциально разрушительная для экономики ставка основана на шаткой почве. Дело в том, что далеко не факт, что эти ИИ станут лучше. Более того, есть доказательства того, что они не могут стать значительно лучше, чем они есть сейчас, и новое исследование показывает, что ИИ на самом деле становится хуже!
Чтобы понять это исследование, нам нужно разобраться в двух способах улучшения ИИ: масштабирование и оптимизация.
В последние годы наибольшее внимание уделялось именно масштабированию, и этот метод использовался наиболее активно. Он предполагает сбор большего объёма данных для обучения и использование большего вычислительного ресурса для "обучения" ИИ (иначе говоря, для того, чтобы ИИ обрабатывал данные и учился на их основе). Другой метод — это оптимизация. Она заключается в точной настройке ИИ на основе имеющихся данных с учётом обратной связи от людей, что позволяет сделать его более эффективным с уже доступными ресурсами.
Как я уже писал ранее, индустрия ИИ сталкивается с пределами метода масштабирования. Вкратце, для того чтобы ИИ продолжал улучшаться с той же скоростью, объем данных, инфраструктура и энергопотребление должны увеличиваться экспоненциально. Поскольку компании, занимающиеся ИИ, уже далеко от прибыльности, этот путь просто не является жизнеспособным в будущем.
Поэтому многие переходят к методу оптимизации. Примером этого является модель OpenAI o1, или «Strawberry», которая не использует больше данных для обучения по сравнению с предыдущей моделью (ChatGPT-4o), но вместо этого имеет оптимизированный интерфейс, который автоматизирует успешную технику создания цепочек рассуждений (chain-of-thought). Это позволяет им создавать «лучшие» ИИ без необходимости тратить огромное количество денег.
Но кажется, что оба метода достигли своих пределов и не дают возможности создавать ИИ, которые были бы функционально лучше.
Этот вывод был сделан Хосе Эрнандесом-Оралло из Политехнического университета Валенсии, Испания. Он и его коллеги изучили работу этих ИИ, основанных на больших языковых моделях (LLM), по мере их улучшения через масштабирование и оптимизацию. Они сравнили последние модели OpenAI, Meta и BLOOM с их предшественниками, выполняя задачи, начиная от арифметических задач и составления анаграмм, и заканчивая вопросами по географии, научным вызовам и извлечением информации из неупорядоченных списков. Результаты оказались весьма интересными.
Они обнаружили, что масштабирование и оптимизация могут улучшить способности ИИ отвечать на сложные вопросы, такие как перестановка анаграмм. Но при этом эти ИИ стали хуже справляться с базовыми задачами. Например, они не смогли правильно решить простые арифметические задачи, такие как сложение.
И не только Эрнандес-Оралло заметил это. Исследование Калифорнийского университета в Беркли показало аналогичные результаты для GPT-4 и его предшественника GPT-3.5. Более того, если вы загуглите «ИИ стал хуже», вы найдете сотни, а возможно, даже тысячи статей и постов, утверждающих, что новые модели значительно хуже справляются с простыми задачами по сравнению с предыдущими поколениями.
Так что же происходит? Дело в том, что ни масштабирование, ни оптимизация не наделяют эти ИИ магическим образом способностью решать более сложные задачи. Иными словами, они не приобретают новых способностей. Вместо этого они замещают старые способности новыми, например, теряя способность отвечать на простые вопросы.
Как и во всем, что связано с ИИ, у нас нет много жизнеспособных вариантов для того, чтобы сделать эти чат-боты более универсальными. Сколько бы мы ни старались, мы можем только делать их лучше в решении конкретных задач.
Многие полагали, что метод оптимизации сможет решить эту проблему и эффективно сделать ИИ способным работать в разных «режимах», помогая ему быть хорошим как в решении сложных задач, так и в простых (или сохраняя другие способности, которые он может потерять при улучшении в других аспектах). Однако, поскольку метод оптимизации широко использовался между поколениями в исследовании Эрнандеса-Оралло, в основном потому, что они не могут себе позволить развиваться исключительно за счет масштабирования, это показывает, что данное предположение не оправдалось.
К сожалению, есть доказательства того, что эта неспособность расширить свои горизонты характерна не только для чат-ботов на базе ИИ. Например, по мере того как система FSD от Tesla становится более совершенной, пользователи сообщают, что она стала хуже справляться с простыми задачами, такими как не наезжать на бордюры.
Есть возможные решения, например, использование нескольких ИИ параллельно, при котором одни ИИ будут лучше справляться с одними задачами, а другие — с другими. Таким образом, модель может казаться более универсальной, так как для выполнения вашей задачи будет использоваться ИИ, наиболее подходящий для нее. Но компании, занимающиеся ИИ, уже сталкиваются с трудностями в оплате разработки своих текущих систем, так что я сомневаюсь, что это жизнеспособный подход.
Что это значит для ИИ? Эрнандес-Оралло подвел итог, сказав: «Мы полагаемся на них и доверяем им больше, чем должны». Я полностью согласен; в конце концов, простые ошибки зачастую сложнее всего обнаружить, и его исследование высветило серьезный недостаток в том, как мы сейчас используем ИИ на базе LLM. Более того, это также сильно намекает на то, что пути, которые компании, занимающиеся ИИ, планировали использовать для создания продвинутых моделей ИИ, нарушающих устоявшиеся отрасли, не являются жизнеспособными.