Компания Meta* работает над созданием искусственного интеллекта, который сможет обрабатывать шесть потоков данных. Кроме основных – текста и изображения, нейросеть будет понимать звуки, кадры видео, глубину сцены, движение объектов и даже температуру.
Данный проект разрабатывается под именем ImageBind и на сегодняшний день он представляет собой набор исследовательских инструментов без возможности применения на практике.
Создание нейросети заявлено как разработка генеративного проекта наподобие DALL-E, Stable Diffusion и Midjourney, которые умеют создавать картинки при сопоставлении текста и изображения. В ImageBind заложена возможность обрабатывать сразу шесть типов данных: визуальных, тепловых, движения, текста, звука, данных о глубине.
Разработчики проекта рассчитывают на то, что будущая нейросеть сможет генерировать целостность окружения. Так, если попросить ее создать морское путешествие, то картинка с морем и кораблем должна сопровождаться шумом волн, криком чаек, раскачивающейся палубой от движения воды и океанским бризом.
Но на этом разработка проекта не остановится. В дальнейшем для обучения искусственного интеллекта создатели нейросети планируют добавить другие потоки данных – осязание, обоняние, речь и сигналы функционального МРТ мозга.
Модель ИИ Meta* будет иметь открытый код, которым сможет воспользоваться любой разработчик для добавления его в свои проекты.
(*Meta признана экстремистской организацией и запрещена в РФ)
Ольга Абрамова