20,4 тыс подписчиков

10 объявлений, которые сделали 2024 год знаковым для ИИ

2 января 20252 янв 2025

8 мин

Мы официально отметили вторую годовщину начала бума в сфере ИИ, и дела не замедляются. Напротив, генеративный ИИ развивается с такой скоростью, что это ощущается почти как непреодолимая волна, проникая в новые платформы, медиа и даже устройства. Вот 10 объявлений, которые сделали 2024 год монументальным для мира ИИ. Когда ChatGPT (на базе GPT-3.5) впервые появился в ноябре 2022 года, он фактически представлял собой модную компьютерную игру в Mad Libs. Не поймите меня неправильно, даже эта возможность была революционной на тот момент, но только с выходом GPT-4o в мае 2024 года генеративные ИИ-системы по-настоящему раскрылись. Основываясь на способности своего предшественника анализировать и генерировать как текст, так и изображения, GPT-4o предоставляет более полное понимание контекста по сравнению только с GPT-4.Это приводит к улучшению работы по самым различным задачам, от создания подписей к изображениям и визуального анализа до генерации как креативного, так и аналитического контен

Оглавление

OpenAI выпускает GPT-4o
Расширенный голосовой режим помогает компьютерам говорить как люди
Генеративный ИИ выходит на рыночный фронт

Вот 10 объявлений, которые сделали 2024 год монументальным для мира ИИ.

OpenAI выпускает GPT-4o

Когда ChatGPT (на базе GPT-3.5) впервые появился в ноябре 2022 года, он фактически представлял собой модную компьютерную игру в Mad Libs. Не поймите меня неправильно, даже эта возможность была революционной на тот момент, но только с выходом GPT-4o в мае 2024 года генеративные ИИ-системы по-настоящему раскрылись.

Основываясь на способности своего предшественника анализировать и генерировать как текст, так и изображения, GPT-4o предоставляет более полное понимание контекста по сравнению только с GPT-4.Это приводит к улучшению работы по самым различным задачам, от создания подписей к изображениям и визуального анализа до генерации как креативного, так и аналитического контента, такого как графики, диаграммы и изображения.

Расширенный голосовой режим помогает компьютерам говорить как люди

В сентябре OpenAI вновь продемонстрировала, почему она является ведущей компанией в области искусственного интеллекта, выпустив Расширенный голосовой режим для подписчиков ChatGPT. Эта функция устранила необходимость вводить вопросы в текстовое поле, позволив пользователям общаться с ИИ так, как будто это другой человек.

Используя время отклика, равное человеческому благодаря GPT-4o, Расширенный голосовой режим принципиально изменил способ взаимодействия людей с машинным интеллектом и помог пользователям раскрыть весь творческий потенциал ИИ.

Генеративный ИИ выходит на рыночный фронт

Когда ChatGPT дебютировал в 2022 году, он был единственным ИИ на рынке и доступен только на одном сайте: ChatGPT.com. О, как изменилась ситуация за два года. В наши дни генеративный ИИ можно найти везде: от смартфонов и умных домашних устройств до автономных автомобилей и технологий мониторинга здоровья. Например, ChatGPT доступен в виде десктопного приложения, API, мобильного приложения и даже по номеру 800. Microsoft, в свою очередь, внедрила ИИ непосредственно в свою линейку ноутбуков Copilot+.

Возможно, самым значительным примером является Apple Intelligence. Может быть, это не был самый удачный запуск (многие функции всё ещё ожидаются), но с точки зрения доступности возможностей генеративного ИИ ничего не было столь важным, как Apple Intelligence.

Теперь ни ПК на базе Copilot+, ни Apple Intelligence не соответствуют ожиданиям компаний, вовлечённых в этот процесс, — особенно для Microsoft, — но, как мы все знаем, это только начало.

Возрождение ядерной энергетики

До этого года ядерная энергия рассматривалась в Америке как неудачная затея. Она считалась ненадёжной и небезопасной, отчасти из-за инцидента на Три Миле в 1979 году, когда один из основных реакторов завода частично расплавился и выпустил токсичные радиоактивные материалы в атмосферу. Однако, с быстрым увеличением количеств электроэнергии, которые современные большие языковые модели требуют — и огромным стрессом, который они оказывают на региональные электросети — многие ведущие компании в области ИИ начали внимательнее рассматривать возможность использования ядерной энергии для работы своих дата-центров.

Так, например, Amazon в марте приобрела ядерный ИИ-дата-центр у Talen, а затем подписала соглашение о приобретении миниатюрных автономных маломощных реакторов (SMRs) у Energy Northwest в октябре. Microsoft, не желая оставаться в стороне, купила производственные мощности самого острова Три Мили и сейчас работает над тем, чтобы вернуть первый реактор в эксплуатацию и запускать электричество.

Агенты готовы стать следующим большим шагом в генеративном ИИ

Оказалось, что есть лишь ограниченное количество данных для обучения, мощности и воды, которые можно投入ить в задачу роста вашего большого языкового модели, прежде чем вы столкнётесь с проблемой убывающей отдачи. ИТ-индустрия испытала это на собственном опыте в 2024 году и, в ответ на это, начала переключаться с огромных LLM, которые изначально определяли опыт генеративного ИИ, на агентов; меньшие, более отзывчивые модели, созданные для выполнения конкретных задач, а не для того, чтобы пытаться выполнять всё, что может запросить пользователь.

Anthropic представила своего агента, названного Computer Use, в октябре. Microsoft последовала с Copilot Actions в ноябре, в то время как OpenAI, по слухам, готовится выпустить свою функцию агента в январе.

Рост моделей рассуждения

Многие из сегодняшних больших языковых моделей больше направлены на то, чтобы генерировать ответы как можно быстрее, часто в ущерб точности и корректности. Модель рассуждения OpenAI o1, которую компания представила сначала в виде превью в сентябре, а затем как полностью функциональную модель в декабре, идёт по противоположному пути: она жертвует скоростью ответа ради внутренней проверки своего обоснования для данного ответа, обеспечивая как можно большую точность и целостность.

Хотя эта технология ещё не была полностью принята общественностью (o1 в настоящее время доступна только подписчикам уровней Plus и Pro), ведущие компании ИИ продвигаются вперёд с версиями собственного производства. Google анонсировала свой ответ на o1, названный Gemini 2.0 Flash Thinking Experimental, 19 декабря, в то время как OpenAI сообщила, что уже работает над преемником o1, который она называет o3, на своём живом стриме 12 дней OpenAI 20 декабря.

Поиск с поддержкой ИИ распространяется по интернету

Генеративный ИИ, кажется, везде в наши дни, так почему бы его не интегрировать в одну из самых основополагающих функций интернета? Google экспериментировал с этой технологией на протяжении последних двух лет, сначала выпустив Search Generative Experience в мае 2023 года, а затем развернув функцию AI Overview в это же время в этом мае. AI Overview генерирует сводку запрашиваемой пользователем информации в верхней части страницы с результатами поиска.

Perplexity AI продвигает эту технику на шаг вперёд. Его "двигатель ответов" исследует интернет в поисках информации, запрашиваемой пользователем, а затем синтезирует эти данные в последовательный, разговорный (и с указанием источников) ответ, эффективно устраняя необходимость переходить по списку ссылок. OpenAI, как всегда, новатор, разработала практически идентичную систему для своего чат-бота, названную ChatGPT Search, которую она представила в октябре.

Artifact от Anthropic запускает революцию сотрудничества

Попытка генерировать, анализировать и редактировать большие файлы — будь то длинные креативные эссе или фрагменты компьютерного кода — прямо в чате может быть подавляющей, требуя бесконечно прокручивать назад и вперёд, чтобы видеть весь документ.

Функция Anthropic's Artifacts, которая дебютировала в июне, помогает снизить эту проблему, предоставляя пользователям отдельное окно предварительного просмотра, в котором можно видеть созданный ИИ текст вне основного диалога. Эта функция оказалась настолько успешной, что OpenAI быстро ответила аналогичной версией.

Её последние модели и функции сделали Anthropic грозным соперником для OpenAI и Google в этом году, что уже само по себе кажется значительным.

Генераторы изображений и видео наконец научились создавать пальцы

Используйте Управление камерой, чтобы целенаправленно управлять каждой съёмкой.

Узнайте как с помощью Академии Runway. pic.twitter.com/vCGMkkhKds

— Runway (@runwayml) 2 ноября 2024 года

Ранее было легко определить сгенерированное ИИ изображение или видео просто подсчитав количество конечностей, которые показывают субъекты — любое больше двух рук, двух ног и десяти пальцев явно тоже было сгенерировано, как демонстрировали образы из Stable Diffusion 3 в июне. Тем не менее, к концу 2024 года различить человеческое и машинное содержимое стало значительно сложнее, так как генераторы изображений и видео стремительно улучшили как качество, так и физиологическую точность своих результатов.

Системы ИИ-видео, такие как Kling, Gen 3 Alpha и Movie Gen теперь способны генерировать фотореалистичные клипы с минимальными искажениями и точным управлением камерой, в то время как такие программы, как Midjourney, Dall-E 3 и Imagen 3 могут создавать статические изображения с поразительной реалистичностью (и минимальными искаженными артефактами) в самых различных художественных стилях.

О, и Sora от OpenAI наконец дебютировала в рамках декабрьских анонсов. Битва за модели видео, созданные ИИ, разгорается, и в 2024 году они стали шокирующе впечатляющими.

Попытка Элон Маска создать крупнейший в мире кластер обучения ИИ за $10 миллиардов

xAI запустила Grok 2.0 в этом году, последнюю модель, встроенную непосредственно в X. Но главная новость вокруг AI-предприятия Эдона Маска касается того, куда это движение направится в будущем. В 2024 году Элон Маск начал строительство “крупнейшего в мире суперкомпьютера” неподалёку от Мемфиса, штат Теннесси, который запустился в 4:20 утра 22 июля. Суперкластер, управляемый 100,000 GPU Nvidia H100, предназначен для обучения новых версий генеративной модели ИИ Grok от xAI, которую Маск утверждает, что она станет “самым мощным ИИ в мире”.

Маск ожидает потратить около $10 миллиардов на капитальные вложения и эксплуатационные затраты только в 2024 году, но, по данным, он работает над тем, чтобы удвоить количество GPU, поддерживающих суперкомпьютер в новом году.

Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!

Новинка! На нашем канале в Яндекс Дзен появилась премиум подписка, которая позволяет читать статьи без рекламы и получать доступ к эксклюзивным материалам, недоступным обычным пользователям. Будем рады, видеть вас в числе премиум пользователей!

Вы также можете читать наши материалы в:

Telegram: https://t.me/gergenshin
Яндекс Дзен: https://dzen.ru/gergen
Официальный сайт: https://www-genshin.ru

О кино и сериалах

672,2 тыс интересуются