Найти тему
75 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

InstantID: этот инструмент для вписывания людей по одному фото в нужный контекст можно использовать в веб-интерфейсе A1111 для совмещения лиц двух персоналий через controlnet юниты.

DepthAnything: быстро получаем получаем карту глубины картинки/видео, можно использовать для ControlNet. Ещё стоит обратить внимание на Marigold.

Garfield: сегментация и группирование объектов на нерфах.

🎸 ЗВУК 🎸

Parakeet-TDT: совместный преводчик речи в текст от Nvidia и Suno.

OWSM: тоже транскрибатор речи в текст, но работает с 151 языком и есть перевод между любыми языками.

AudioSeal: ставим водяные знаки на аудио или проверяем его на их наличие.

🤖 ЧАТЫ 🤖

Llava: чат по визуалу (VLM) обновился до V1.6. Модель лучше распознаёт текст на картинках и понимает мир.

MoE-Llava: та же лава, что выше, только в формате Mixture of Experts (MoE) как Mixtral 8x7B.

Mobile-Agent: мобильный AI-агент с пониманием визуала для выполнение заданий в вебе.

YOLO World: распознаём объекты на фото и получаем ONNX модель.

LongAling: фреймворк для алаймента LLM на длинном контексте.

Лидерборд нейронок с фильтрами по корпоративным задачам.

И... лидерборд по галлюцинациям.

Запрещёнка выпустила генератор кода CodeLama 70B. Вот ещё 4-bit версия в формате MLX для Apple.

VLM Moondream1 добавлен в библиотеку diffusers.

Исследования:
* T3 от AMD — улучшение коммуникации моделей в распределённой среде (бумага).
* Self-Rewarding Language Models — модель сама себя вознаграждает во время обучения, что приводит к повышению производительности и возможности постоянного совершенствования (бумага / подкаст / выжимка).

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Дайджест:  📹 ВИДЕО + АРТ 🎨  InstantID: этот инструмент для вписывания людей по одному фото в нужный контекст можно использовать в веб-интерфейсе A1111 для совмещения лиц двух персоналий через...
1 минута