80 подписчиков
Дайджест:
📹 ВИДЕО + АРТ 🎨
🎸 ЗВУК 🎸
Запрещёнка выкатила демо Musicgen, генерящее стерео звук. Все модели линейки обновлены. Примеры тут.
OpenAI: выпустили Whisper V3 для получения транскрипта аудио и его перевода. Можно вкидывать наговорить в диктовон, скнуть видео, или ссыль на YouTube. И ещё TTS от них.
🤖 ЧАТЫ 🤖
x.ai: Илон анонсировал свою LLM Grok-33B, которая постепенно будет раскатывать среди владельцев премиумов в твиттер. Можно будет генерить текст, код, и чатиться по контенту.
01.ai: тоже новый игрок на рынке LLM с моделью Yi. Показывает себя лучше Falcon и ламы 2, имеет контекст 200k (больше, чем GPT-4 Turbo), и опенсорс, плюс есть дружелюбная лицензия.
В LLaVA добавили интерактив, и теперь можно сегментировать объекты в кадре для удаления/замены, есть инпейтинг, и генерация на основе.
mPLUG-Owl2: обновлённая версия модели сочетающей в себе визуальную языковую модель (VLM) и большую языковую модель (LLM). Можно чатиться по картинкам, и даже даёт ссылки в ответах.
Microsoft: представили SoM (Set-of-Mark), это VLM соединённый с GPT-4V API для сегментации картинок и чата по ним.
Исследование:
* Распределённое обучение трансформеров на ультра-длинных текстах. Получилось в 5 раз быстрее и в 10 раз дешевле вывести вывести текст, чем на 144 Nvidia V100.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
1 минута
9 ноября 2023