Найти в Дзене
78 подписчиков

Дайджест новостей за прошлую неделю:


📹 ВИДЕО + АРТ 🎨

AnimateDiff появился на Hugging Face. Ещё есть такой вариант, но обязательно нужно использовать картинку сгенерированную в SD.

CSM: модель для генерации 3D по одному изображению.

FABRIC: диффузионная модель, в которой можно голосовать за понравившиеся варианты генерации, и она будет больше таких вариков подкидывать.

NerfStudio: теперь запускается на Hugging Face.

DS-Fusion: инструмент для генерации художественного шрифта, который бы отражал написанное слово. Пишешь единорог — одна буква или более будут связаны с единорогами.

CoTracker: отслеживание движения любого объекта на видео. Работает на основе трансформеров.

Исследователи представили Divide & Bind, метод позволяющий улучшить генерации диффузионных моделей.

Fablestudio: представили фреймворк для генерации сериалов на основе LLM, диффузионных моделей и AI-агентов. Уже даже выпустили серию Южного парка. Правда без кода и демо, так что можно посолить.

DNA-Rendering: датасет с визуальными данными 500 актёров, которые были записаны с 60 камер и выполняли простые ежедневные задания.

Neural Haircut: использование нейронок для 3D реконструкции волос на голове из видео.

🎸 ЗВУК 🎸

Google: представили метод Brain2Music, использующий данные фМРТ для получения или генерации музыки с помощи модели MusicLM. Другие проекты, работающие над генерацией визуала и звука из мыслей я описал здесь.

Saleforce: датасет из диалогов для создания разговаривающих AI-агентов.

Bytedance: показали Mega-TTS 2 для генерации голоса по тексту, пока без кода.

🤖 ЧАТЫ 🤖

Запрещёнка выпустила Llama 2, которая натренирована на 40% больше данных (2 триллиона), имеет в 2 раза большее контекстное окно (4096 токенов), и может использоваться в коммерческих целях, хотя есть ограничения. Хорошо себя показывает на бенчмарках. Модельный ряд: 7B, 13B, и 70B. Початиться можно туть или туть или туть (выбрав ламу из выпадающего меню) или туть. Квантизированные модели для локального инференса здесь. Потренить ламу 2 на своих данных можно там. Зафайнтюнить с помощью QLoRA и HF на Amazon SageMaker — вот гайд. Собрать своего чат-бота с UI поможет этот чувак.

LLaVA: модель для чата с изображениями, добавила поддержку Llama 2.

Mozaic: выпустили модель MPT-7B с контекстом в 8к.

LLongMA-2-7B: модель на основе ламы 2 тоже с 8к контекстом.

StabilityAI: выпустили две новые большие языковые модели: FreeWilly1 и FreeWilly2. Первая основана на LLaMA 65B и зафайнтюнена на синтетическом датасете с помощью SFT. Вторая основана на свежей LLaMA 2 70B и на каких-то задачах показывает результаты уровня ChatGPT-3.5. Модели натренены на 600к токенов. Лицензия не подразумевает коммерческое использование. Также они выпустили платформу для разработчиков, чтобы упростить интеграцию продуктов Stability в другие проекты.

OpenAI: для владельцев подписок удвоили количество сообщений, которое можно послать GPT-4 (до 50 сообщений за 3 часа). Также добавили кастомные инструкции, чтобы можно было настроить модель отвечать в определённом ключе и она держала это в уме. Включить можно в Settings —> Beta Features —> Custom Instructions. А в Bing Chat добавился поиск по картинкам.

Выпущена Flash Attention 2. Она в 2 раза быстрее первой версии и достигает 225 TFLOPS/сек.

Meta-Transformer: чат с данными в 12 модальностях: текст, изображения, облака точек, аудио, видео, инфракрасные, гиперспектральные рентгеновские, табличные, графические, временные ряды, данные инерциальных измерительных приборов (ИИП).

Hugging Face: открыли раздел Tasks с разделением моделей по категориям и добавили ChatInterface класс, чтобы разворачивать свои чат-боты стало ещё легче.

BudoGPT: языковая модель для чата по тексту, визуалу и аудио данным.

peS2o: датасет из 40 млн исследовательских бумаг из свободного доступа, адаптированных под треню LLM.

WormGPT: модель для написания вредоносного кода, фишинговых рассылок, и других кибератак. Основана на GPT-J и обучалась на наборах данных, связанных с вредоносной деятельностью.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
3 минуты