28 подписчиков

🟢 Новости AI 🟢

Начало недели выдалось насыщенным: сразу 2 техногиганта — Open AI и Google — сделали громкие анонсы.

🔹OpenAI представила GPT-4o — ту самую "магию", обещанную Сэмом Альтманом. Самое главное — модель работает со всеми медиа — текстом, звуком, изображениями в режиме реального времени. Буква "о" в названии как раз указывает на мультимодальность (от лат."omni" — всесторонний).

Еще возможности:

– Контекстное окно расширилось до 128 000 токенов;

– ИИ-ассистент умеет определять эмоции, менять интонации при общении, распознавать юмор и шутить;

– время реакции на голос составляет 320 мс, что сравнимо с реакцией человека в разговоре;

– доступ более чем на 50 языках, в том числе на русском;

– превращает растровые картинки в 3D изображения;

– лучше воспринимает и анализирует изображения, включая графики, диаграммы и скриншоты;

– ассистент будет доступен в десктопной версии.

Функции обработки текста и изображений обещают добавить в ChatGPT в ближайшие пару недель. GPT4o уже доступна через API.

🔹Что у Google? Компания анонсировала следующие продукты и улучшения:

– Контекстное окно Gemini 1.5 Pro расширилось до 2 млн токенов.

– Появилась Gemini 1,5 Flash — самая быстрая модель Gemini, доступная через API.

– Тесты Veo — модели для создания видео, прямого конкурента Sora. Делает ролики от 8 секунд в качестве 1080р.

– Анонс Imagen 3 — генеративной ИИ-модели для создания изображений.

– Прототип Project Astra — мультимодального ИИ-помощника, взаимодействовать с которым можно будет через камеру.

– Новые ИИ-опции для поисковика Google: быстрый ответ на вопрос пользователя, поиск по видео и т.д.

– Весь Google Workspace получит поддержку нейронки Gemini.

Mitup AI | #новости_AI

1 минута

15 мая 2024