1 подписчик

Главные события в мире ИИ за 2023 год

26 декабря 202326 дек 2023

5 мин

Оглавление

23 января: Microsoft инвестирует 10 миллиардов долларов в OpenAI
7 февраля: Microsoft тихой сапой использует GPT-4 в своём Bing Chat
15 марта: OpenAI запускает GPT-4

Хоть я и не могу рассказать обо всем, что творилось в этом году, я решил посвятить эту статью 10 самым крутым событиям в мире искусственного интеллекта за 2023 год. Ну что, приступим?

23 января: Microsoft инвестирует 10 миллиардов долларов в OpenAI

Что произошло: Microsoft заявила о вложении 10 миллиардов долларов в OpenAI. В обмен на финансирование и вычислительную инфраструктуру, сделка позволила Microsoft использовать модели OpenAI в своих различных продуктах и услугах.

Почему это важно: OpenAI - самый влиятельный стартап в мире искусственного интеллекта на данный момент, и он стратегически важен для Microsoft. Его модели искусственного интеллекта, устанавливающие стандарты, придали Microsoft конкурентное преимущество перед другими гигантами технологической индустрии в борьбе за лидерство в области искусственного интеллекта.

7 февраля: Microsoft тихой сапой использует GPT-4 в своём Bing Chat

В деталях: На следующий день после того, как Google объявил о Bard, Microsoft зарелизила Bing Chat. Как выяснилось через месяц, Bing стал первым чатботом на основе мощной модели GPT-4 от OpenAI. Тогда ChatGPT сам еще не крутился на GPT-4 — 10 миллиардов сделали своё дело.

Почему это важно: Интеграция подняла количество ежедневных активных пользователей Bing до 100 миллионов в следующем месяце, закрепив его позицию второго по величине поисковика в мире (всего на шаг за тем, кого-то там, ну вы поняли).

15 марта: OpenAI запускает GPT-4

Суть: Спустя пять недель после того, как Bing Chat (неофициально) дал нам "пощупать" модель, OpenAI, наконец, представила GPT-4. Переплюнув все существующие языковые модели, GPT-4 поразила всех своими возможностями, способными обрабатывать как тексты, так и изображения. Новая модель также сопровождалась значительными улучшениями в интеллекте — по словам OpenAI, улучшения проявлялись в производительности системы по таким бенчмаркам, как Bar, LSAT и SAT.

Почему это важно: выход GPT-4 был прорывом. Как самая мощная языковая модель на рынке, GPT-4 установила стандарты производительности для всех существующих и будущих моделей искусственного интеллекта.

16 марта: Midjourney обновляется до V5

Детали: MidJourney произвела настооящий фурор в области генерации изображений с последней версией, V5 (которая вышла всего через один день после того, как OpenAI выпустила GPT-4 — ну что за неделька, а?). Способность V5 создавать невероятно реалистичные изображения (помните вирусную куртку у Папы Римского?) поразила всех. По сравнению с предыдущей версией, V5 лучше понимала запросы пользователей, могла похвастаться более широким набором стилей, более высоким разрешением изображений и так далее.

Почему это важно: Релиз V5 стал новой вехой в развитии "генеративного искусства". Фотореалистичностью модель установила высокую планку для нейронок, генерирующих изображения.

21 марта: Adobe запускает Firefly

В деталях: В своем первом серьезном шаге в мир искусственного интеллекта Adobe запустила Firefly, свой ИИ генератор изображений, обученный на библиотеке изображений от Adobe, в виде бета-версии для веба.

Почему это важно: Firefly стал пропуском Adobe в гонку вооружений в мире ИИ. Но во всей красе он предстанет только спустя несколько недель (см. следующий пункт).

23 марта: Firefly интегрируется в Photoshop

В деталях: Поначалу казалось, что уже существующие Midjourney и Stable Diffusion дадут фору инструменту от Adobe. Но все поменялось, когда Adobe встроила Firefly в Photoshop и представила новую функцию Generative Fill, которая могла добавлять и удалять конкретные объекты на изображении на основе простых текстовых подсказок.

Почему это важно: Интеграция Firefly в Photoshop помогла художникам работать более эффективно. Такая интеграция в столь популярную программу от Adobe стала ключом к распространению генеративного ИИ среди широких масс.

7 июня: ИИ-революция от Runway, преобразование текста в видео

В деталях: ИИ-стартап Runway выпустил новую модель по переводу текста в видео, Gen-2. В то время как Gen-1 от Runway могла только изменять стиль существующего видео, Gen-2 стала способна создавать совершенно новые сцены из одного предложения. Она также могла генерировать короткие видеоролики (всего несколько секунд, но всё же!) из существующего изображения или комбинации изображений и текстового описания.

Почему это важно: хотя Gen-2 не была первым инструментом для создания видео по текстовому промпту, она стал первым, которая завоевала популярность. Gen-2 повысила планку в мире видео так же, как это сделала Midjourney с изображениями.

11 июня: всепомнящий чатбот от Anthropic

В деталях: Выпуск модели Claude 2 от Anthropic серьезно улучшил чатбот Claude. Помимо лучшей производительности по сравнению с предыдущей моделью по нескольким критериям, Claude 2 выделяется своим контекстным окном в 100 000 токенов. Это означает, что Claude может обрабатывать входные данные длиной в целую книгу, что делаетт ее самой крупной доступной моделью искусственного интеллекта (с тех пор Anthropic увеличили окно контекста у Claude до 200 000 токенов, или примерно 150 000 слов).

Почему это важно: впечатляющая "память" Claude 2 дала ей огромное преимущество перед ChatGPT в обработке длинных PDF-файлов — настолько, что многие пересели с ChatGPT на Claude.

25 сентября: ChatGPT теперь видит, слышит и разговаривает

В деталях: В сентябре ChatGPT стал еще лучше. Речевая составляющая, работающая на новой модели преобразования текста в речь, позволила пользователям вести разговоры с ChatGPT. Возможность загружать изображения позволила пользователям общаться с ботом о их содержимом этих изображений.

Почему это важно: Это обновление открыло целый мир новых сценариев использования ChatGPT (как, например, возможность загрузить фотографию сломанного велосипеда и спросить у ChatGPT, как его починить... вау). Также это подтолкнуло крупных игроков в мире ИИ добавлять разные мультимедиа возможности в свои сетки.

19 октярбря: выход DALL-E 3

Детали: В октябре OpenAI запустила DALL-E 3 в ChatGPT Plus и Enterprise. До сих пор DALL-E 3 является самой точной по отношению к запросам моделью генерации изображений — другими словами, она придерживается каждой мелочи в запросах пользователей.

Почему это важно: Это упростило редактирование сгенерированных изображений: вместо того чтобы писать совершенно новые запросы для редактирования, пользователи могли вносить изменения в рамках уже существующего разговора с ChatGPT.

Всё продолжает бежать вперед и меняться. Компании сильно соревнуются за право залезть на пьедестал, и не менее сильно - чтобы удержаться. Посмотрим, как далеко это всё зайдет (напишется, нарисуется, сгенерируется...).