139 тыс подписчиков

Microsoft представила ИИ-модель Kosmos-1, умеющую анализировать содержание картинок, решать головоломки и проходить тест на IQ

2 марта 20232 мар 2023

2 мин

Компания Microsoft представила Kosmos-1 — особую ИИ-модель, которая может анализировать содержание изображений, решать головоломки, проходить визуальные тесты на IQ и даже понимать команды на разговорном языке. По мнению специалистов, создание ИИ-системы, способной работать в текстовом, аудио- и графическом режиме (включая видеоматериалы) является ключевым шагом на пути формирования так называемого «общего искусственного интеллекта». Такому ИИ предстоит заниматься решением задач самого широкого профиля. Принципы работы Kosmos-1 описаны в статье Language Is Not All You Need: Aligning Perception with Language Models. В данном материале исследователи детально описывают, как новая ИИ-система от Microsoft анализирует изображения, отвечает на любые вопросы о них, распознаёт и читает текст с любых картинок, проходит визуальный тест на IQ и подписывает иллюстрации. Создание «общего искусственного интеллекта» примечательно тем, что (в теории) позволяет полностью заменить людей при выполнении любых интеллектуальных задач. Напомним, что это конечная цель OpenAI — важного партнёра Microsoft в сфере ИИ. Но Kosmos-1 является собственностью и разработкой редмондцев, сотрудники стартапа не имеют к ней отношений. Исследователи называют Kosmos-1 «мультимодальной большой языковой моделью» (MLMM), которая умеет преобразовывать картинку в серию, как правило, текстовых «токенов». Они анализируются, а за тем текст и сопутствующие задаче элементы проходят важный процесс перобразования специальным декодером. Уже сейчас речь идёт о том, что во многих тестах Kosmos-1 обходит передовые существующие ИИ-модели. В опубликованной и упомянутой выше статье описывался процесс прохождения теста британского психолога Джона К. Рейвена, который позволяет измерить IQ. Испытуемому демонстрируется последовательность форм с предложением продолжить её. Так вот, конкретно этот тест Kosmos-1 пока проходит с точностью 22-26 %, что не так много. Тренировка модели Kosmos-1 велась с использованием информации из интернета — впрочем, это было очевидно. Разработчики подчёркивают, что сейчас развитие ИИ-модели находится в зачаточном состоянии, ещё нужно сделать много тестов и регулярно модернизировать алгоритм. Учёные собираются добиться улучшить Kosmos-1 таким образом, чтобы она могла вести беседы и помогать сторонним разработчикам в их работе. В будущем такую систему можно будет использовать, например, для расширения возможностей цифровых ассистентов, но сферы применения Kosmos-1 выходят далеко за эти рамки.