В декабре прошёл 12-дневный марафон презентаций от OpenAI. Представили удобные инструменты в ChatGPT, нейросеть для создания роликов и передовые языковые модели. Рассказываем о главном.
Модели семейства o1
Платным пользователям открыли доступ к o1 и o1 mini — полноценным версиям ранее вышедшей итерации o1-preview. «Рассуждающий» вариант нейронки сделали более умным и быстрым, а также внедрили поддержку картинок. Помимо базовых модификаций дебютировал o1 Pro — самый продвинутый ИИ-помощник бренда среди публично доступных. В нём для ответов применяют ещё больше вычислительных ресурсов и времени, что даёт кратный прирост по качеству выдачи.
Эксплуатировать o1 Pro могут подписчики тарифа ChatGPT Pro ($200 в месяц). К нему прилагается неограниченный доступ к o1, o1 mini, GPT-4o и улучшенному голосовому режиму. Дополнительным удобством для специалистов стала возможность точной настройки (fine-tuning) моделей семейства o1. Это позволяет снабдить ИИ собственной базой данных для экспертизы в конкретной области и давать примеры решённых задач. Так повышается эффективность работы в специфических сценариях.
Sora и ChatGPT Canvas
Сайт Sora для генерации коротких видео теперь доступен пользователям платных планов OpenAI. На нём представлены библиотека роликов с опцией ремиксов и детальный редактор инструкций. На выбор есть приоритетная очередь и быстрый канал выдачи на базе Sora Turbo. Лимит составляет 50 роликов для подписки Plus, а в случае с Pro предлагается неограниченное число генераций. На время новогодних праздников Plus-пользователям предоставили безлимитный доступ. О тестировании Sora в деталях мы писали в этом материале.
Интерфейс Canvas обновили. Он упрощает работу с документам или кодом, выводя итоговой результат рядом с чатом. Удобно вносить изменения в реальном времени: ИИ редактирует текст в соответствии с инструкциями, а не переделывает всё с нуля. Сейчас этот режим бесплатно доступен всем. Модель способна оставлять комментарии к своим правкам, взаимодействовать с кастомными помощниками GPT, исполнять Python-код для предпросмотра результата.
Кроме того, ChatGPT интегрировали в macOS, iOS и iPadOS на уровне системы.
Проекты и Advanced Voice Mode
На сайте ассистента появились проекты — ещё один способ организации рабочего процесса. В таких папках к чату можно приложить релевантные документы и задать отдельные инструкции. Прокачали и режим голосового общения. Теперь для ChatGPT получится стримить изображение с камеры — ИИ будет видеть в реальном времени то, что находится в видоискателе. Таким же образом транслируется и экран.
Вдобавок легко обратиться за помощью, не прерывая работы, будь то готовка, ремонт или написание кода. Ещё добавили тематический пресет Санты Клауса с соответствующим голосом и манерами. Запускается он с помощью иконки снежинки. Через Advanced Voice Mode сейчас функционирует и поиск в интернете, причём узнавать актуальные сведения из сети можно голосом. Сам поисковик тоже прокачали и сделали бесплатным.
Пользователи из США смогут позвонить ChatGPT — номер 1-800-242-8478 откликается на сотовые вызовы и сообщения в WhatsApp.
Прорывные o3 и o3 mini
Череда анонсов завершилась демонстрацией языковых моделей следующего поколения — o3 (o2 пропустили, поскольку бренд уже занят). Их предоставили учёным для предварительного тестирования, а публичный релиз состоится в январе 2025-го. Новинки достигли немалого скачка во многих бенчмарках и по результатам сравнимы с докторами наук. Особенно примечательны 87,5% в сценарии ARC-AGI. Он содержит задачи наподобие IQ-тестов, предназначенных для сравнения человеческого интеллекта с машинным.
Люди в этом тесте набирают в среднем 85%, а предыдущий рекорд среди LLM составлял около 50%. Впрочем, такая мощь пока что обходится недёшево. Для получения наилучших показателей на каждую задачу выделяли примерно $20. В то же время стоимость аналогичной работы человека оценивается в 4-5 долларов. Словом, o3 продолжает тенденцию o1 Pro: ещё дольше «думает» и стоит ещё дороже. На актуальном этапе внедрять её для автоматизации бизнес-процессов не особо выгодно. Но в будущем стоимость вычислений могут оптимизировать, а заодно и цены пойдут на спад.