Найти в Дзене
80 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

Alibaba: выкатили I2VGen-XL для генерации видео в 1280x720.

YOLO-NAS: детектируем людей в кадре и их движение в кадре.

S-LoRA: новый метод позволяющий работать с тысячами лор на одном или ряде GPU.

EmerNeRF: прогнозирование движения на дороге с помощью нерф.

Tinygrad: проект геохота (George Hotz) сделал генератор в SD на WebGPU.

🎸 ЗВУК 🎸

Запрещёнка выкатила демо Musicgen, генерящее стерео звук. Все модели линейки обновлены. Примеры тут.

OpenAI: выпустили Whisper V3 для получения транскрипта аудио и его перевода. Можно вкидывать наговорить в диктовон, скнуть видео, или ссыль на YouTube. И ещё TTS от них.

🤖 ЧАТЫ 🤖

x.ai: Илон анонсировал свою LLM Grok-33B, которая постепенно будет раскатывать среди владельцев премиумов в твиттер. Можно будет генерить текст, код, и чатиться по контенту.

01.ai: тоже новый игрок на рынке LLM с моделью Yi. Показывает себя лучше Falcon и ламы 2, имеет контекст 200k (больше, чем GPT-4 Turbo), и опенсорс, плюс есть дружелюбная лицензия.

В LLaVA добавили интерактив, и теперь можно сегментировать объекты в кадре для удаления/замены, есть инпейтинг, и генерация на основе.

На арену чат-ботов добавили GPT-4 Turbo. Лавочку скоро прикроют, можно на халяву потестить.

DeepSeek Coder: модель для написания кода, контекст 16К, размеры до 33B, демо.

mPLUG-Owl2: обновлённая версия модели сочетающей в себе визуальную языковую модель (VLM) и большую языковую модель (LLM). Можно чатиться по картинкам, и даже даёт ссылки в ответах.

Microsoft: представили SoM (Set-of-Mark), это VLM соединённый с GPT-4V API для сегментации картинок и чата по ним.

CogVLM: ещё одна VLM, хорошо показывающая себя на бенчмарках.

CodeFuse: мульти-тасковый файнтюнинг кодовых LLM.

WebcamGPT: чат по кадрам с вебкамеры.

Исследование:
* Распределённое обучение трансформеров на ультра-длинных текстах. Получилось в 5 раз быстрее и в 10 раз дешевле вывести вывести текст, чем на 144 Nvidia V100.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Дайджест:  📹 ВИДЕО + АРТ 🎨  Alibaba: выкатили I2VGen-XL для генерации видео в 1280x720.  YOLO-NAS: детектируем людей в кадре и их движение в кадре.
1 минута