Найти тему
21 подписчик

📱    Meta* представила свою первую мультимодальную модель — Llama 3.2


На минувшей неделе компания безо всяких анонсов выпустила семейство моделей Llama 3.2. Чтобы не отставать в гонке гигантов от Open AI и Anthropic, новые LLM ожидаемо стали мультимодальными. Что это значит?

✅  Мультимодальность — это способность моделей работать с различными типами данных, включая текст, аудио, изображения и графики. То есть Llama 3.2, как и GPT-4o, способна не только генерировать текст, но и принимать в качестве входных данных любую комбинацию текста и картинок (а в перспективе — и звуков) и анализировать их.
 
↗️   Семейство 3.2 пока представлено в 4 версиях:
— Мультимодальные модели на 11 миллиардов и 90 миллиардов параметров: можно выбрать оптимальный вариант в зависимости от задач и ресурсоемкости.
— Мини-модели для работы с текстом на 1 миллиард и 3 миллиарда параметров: предназначены для локальных запусков и интеграции в корпоративные решения.
 
😯   По результатам комплексного теста, показатели Llama 3.2 90B превосходят возможности GPT-4o и Claude-3 Haiku, в том числе и в обработке визуальных данных.
 
📊   На текущий момент веса моделей доступны для разработчиков и исследователей на Hugging Face, что позволяет скачивать их и использовать для создания собственных решений.

   Таким образом, почти все крупные разработчики перешли на следующую ступень развития ИИ, представив свои мультимодальные модели. С нетерпением ждем адаптации моделей и начала их работы "в полную силу", чтобы оценить новые горизонты в создании интерактивного и умного контента.

*организация признана экстремистской и запрещена на территории РФ

MitupAi | #новости_AI
📱    Meta* представила свою первую мультимодальную модель — Llama 3.2  На минувшей неделе компания безо всяких анонсов выпустила семейство моделей Llama 3.2.
1 минута