87,2 тыс подписчиков

Microsoft научила ИИ решать головоломки и сдавать IQ-тесты

2 марта 20232 мар 2023

1 мин

Microsoft представила новую ИИ-модель под названием Kosmos-1. Компания считает, что алгоритм, объединяющий различные режимы ввода, открывает путь для создания искусственного интеллекта, способного выполнять общие задачи на уровне человека. По словам разработчиков, Kosmos-1 может анализировать содержание изображений и делать подписи к ним, решать головоломки, выполнять визуальное распознавание текста, проходить тесты IQ (пока с точностью от 22 до 26%) и понимать инструкции на естественном языке. Этот проект Microsoft разработала без участия OpenAI. В его основе лежит отработка естественного языка LLM. Прежде чем ИИ-модель сможет прочитать изображение, исследователям необходимо перевести его в специальную серию токенов. Для обучения Kosmos-1 использовались данные интернета, включая выдержки из The Pile и Common Crawl. Разработчики оценили способности модели по нескольким тестам, включая понимание и генерацию языка, классификацию текста без оптического распознавания символов, создание суб

По словам разработчиков, Kosmos-1 может анализировать содержание изображений и делать подписи к ним, решать головоломки, выполнять визуальное распознавание текста, проходить тесты IQ (пока с точностью от 22 до 26%) и понимать инструкции на естественном языке. Этот проект Microsoft разработала без участия OpenAI. В его основе лежит отработка естественного языка LLM. Прежде чем ИИ-модель сможет прочитать изображение, исследователям необходимо перевести его в специальную серию токенов.

Для обучения Kosmos-1 использовались данные интернета, включая выдержки из The Pile и Common Crawl. Разработчики оценили способности модели по нескольким тестам, включая понимание и генерацию языка, классификацию текста без оптического распознавания символов, создание субтитров к изображениям, визуальный ответ на вопрос, а также классификацию изображений с нулевым кадром.

По данным Microsoft, во многих из проведённых тестов алгоритм Kosmos-1 даже превзошёл современные модели, а в будущем ученые хотят добавить в него функцию синтеза речи. Компания также заявляет, что в ближайшее время планирует открыть доступ к модели для разработчиков.

Гаджеты и электроника

5,73 млн интересуются