75 подписчиков
Дайджест:
📹 ВИДЕО + АРТ 🎨
Fooocus: SD генератор картинок а-ля MJ обновился до v 2.5. Добавился сегментатор SegmentAnything, улучшатель изображений, и другое по мелочи.
LivePortrait: появилось video-2-video демо. Ренее выходила демка для анимации картинок. Заодно портативка от Neurogen.
Neurogen: в версии v 2.4 RopeMod объединение с RopeStream, повышение скорости обработки с вебки, работа с виртуальной камерой, и не только.
Fal.ai: выпустили новый генератор картинок AuraFlow. 6.8B параметров, DiT энкодер, неплохое следование промту. Качество генерации пока уступает SDXL и скорости не хватает. Демо.
RT-DETR: ещё один опенсорсный сегментатор объектов на видео в реальном времени. Пост как натренировать такую модель на своём датасете.
Click-Gaussian: выделяем на сплатах нужный объект и редактируем сцену. Подход интересный, но кода пока нет.
🎸 ЗВУК 🎸
Nvidia: выпустили универсальный нейронный вокодер BigVGAN, который генерирует аудио, используя спектрограммы.
Emilia: датасет из 101 часа голосовых данных для тренировки своих генераторов речи (TTS). В наличии 6 языков, но русского среди них нет.
AssemblyAI: клонирование голоса с генерацией речи на целевом языке. Нужны API от ElevenLabs и AssemblyAI, хотя опенсорсных транскрибаторов и генераторов уже не мало, можно попробовать и из них собрать. Merlin получше звучит.
🤖 ЧАТЫ 🤖
InternVL2-Llama3-76B: визуальная языковая модель (VLM) для чата по картинкам (графики, документы, формулы, итд). На бенчах лучше других из опенсорсных. 108B параметров, контекст 8К.
Mistral: выпустили модели MathΣtral для задач по математике и Codestral Mamba для кода. Последняя говорят не вывозит на тестах.
Исследования:
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
2 минуты
18 июля 2024