Найти в Дзене
80 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

Materialistic: выбираем объект, который нужно сегментировать на картинке или видео и генерируем для него маску. Можно выбрать как несколько объектов, так и наоборот, то чего нужно выделять.

🎸 ЗВУК 🎸

LP-MusicCaps: даём языковой модели музыку и она делает её описание. Есть колаб если что.

Music to Image: вкидываем музыку и получаем картинку для неё. Картинка генерится из описания сгенерированного моделью выше.

🤖 ЧАТЫ 🤖

LoolLLM: 16 000+ API для опенсорсных моделей, чтобы расширить их функционал в плане выполнения как точечных заданий так и многоходовых. Для поиска и обоснования пути выполнения они также разработали метод DFSDT (depth-first search-based decision tree). Есть ещё схожий проект Gorilla, для связи с API которого можно юзать ToolBench.

StabilityAI: модели StableBeluga 7B и 13B (переименованные из FreeWilly) себя хорошо показывают в лидербоде LLM.

LLM-Rec: использование LLM для персональных рекомендаций. Лучше всего они работают, когда к описанию контента добавлен текст от модели.

SEED-Bench: бенчмарк для мультимодальных моделей.

UniVTG: модель для чата по длинным видео, их выжимки, и поиска конкретных фрагментов.

MovieChat: модель у которой быстро обновляется память для возможности чата по фильмам.

UnIVAL: тоже чат по контенту, но помимо видео работает с аудио и изображениями.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Дайджест:  📹 ВИДЕО + АРТ 🎨  Materialistic: выбираем объект, который нужно сегментировать на картинке или видео и генерируем для него маску.
1 минута