Мультимодальная модель искусственного интеллекта может обрабатывать изображения и текст, и даже сдала экзамен на степень бакалавра.
Во вторник OpenAI анонсировала GPT-4, большую мультимодальную модель, которая может принимать ввод текста и изображений, возвращая текстовый вывод, который "демонстрирует производительность на уровне человека в различных профессиональных и академических тестах", согласно OpenAI. Также во вторник Microsoft объявила, что Bing Chat все время работает на GPT-4.
Какой будет новая ChatGPT?
Если она работает так, как заявлено, GPT-4 потенциально представляет собой новую эру в области искусственного интеллекта. "Он сдает имитированный экзамен на звание адвоката, показывая результата на уровне 10% лучших выпускников, - пишет OpenAI в своем объявлении. - Предыдущая модель GPT-3.5 попала в 10% худших".
OpenAI планирует внедрить текстовые возможности GPT-4 в ChatGPT и его коммерческий API через лист ожидания. GPT-4 в настоящее время доступен для подписчиков ChatGPT Plus. Кроме того, компания тестирует возможности GPT-4 по генерации изображений. В этом корпорации помогает компания Be My Eyes - будущее приложение для смартфонов, которое может распознавать сцену и описывать ее.
Что касается мультимодальных возможностей, GPT-4 может анализировать содержимое нескольких изображений и осмысливать их, например, понимать шутку с несколькими последовательностями изображений или извлекать информацию из диаграммы. Microsoft и Google в последнее время экспериментируют с аналогичными мультимодальными возможностями. В частности, Microsoft считает, что мультимодальный подход будет необходим для достижения того, что исследователи ИИ называют "общим искусственным интеллектом", или "сильным ИИ", который может выполнять общие задачи на уровне человека.