76 подписчиков

Дайджест пока я гонял на PHD фест:

📹 ВИДЕО + АРТ 🎨

Stability AI: выпустили DreamStudio в опенсорс под названием StableStudio. Будет поддержка ControlNet, локального инференса через A1111 или WebGPU, расширение через плагины, и другие ништяки. Позже туда подъедет чат. Я поставил потестил, пока это DS один-в-один. Тем более нужен API ключ Stability для работы, который можно взять в акке DS. Когда подъедет возможность использовать локальные мощности, или через плагин подцепить Stable Horde и другие ништяки, тогда будет о чем поговорить.

DragGAN: меняем композицию на фото, указывая мышкой точки как должно меняться движение объекта в кадре. Выглядит довольно интересно.

Phygital+: добавили DeepFloyd для генерации картинки с текстом, добавили Segment Anything (SAM) для аккуратного выделения объектов.

CoDi: модель, способная генерировать контент на связке модальностей текста, арта, видео и музыки. Пока без кода.

Nvidia: представили text-2-video модель PYoCo, которая является файнтюном eDiff-I, но с новым приором шума к видео. Похоже оно даже умеет в текст на видео а-ля DeepFloyd, но всё в стиле зелёных без кода.

Casablanca: нейронка на видеосозвонах автоматом направляет вашу голову и взгляд в камеру.

BlockadeLabs: добавили ControlNet в свой генератор 360-панорам. Глубину неплохо передаёт. На схожую тему вышла бумага LDM3D про генерацию 3D диффуизей.

Mesh Diffusion: генерация 3D преставлений не из вокселей или облака точек, а меша.

Upscayl: ещё один софт для апскейла фото, можно запустить локально.

Instruct pix2pix, который изначально использовался в A1111, устарел и вместо него лучше использовать контролнетовский pix2pix, который позволяет работать с хайрезом.

FastComposer: генерация изображений из текста или реф картинки без тонкой настройки.

🎸 ЗВУК 🎸

GETMusic: генерация музыки и нот любой длительности, в том числе и по рефу. Работают вместе две модели: GETScore генерирует ноты, а GETDiff генерирует музыку. Можно зафайнтюнить на любимой музыке. Похоже входит в набор инструментов Music от Microsoft.

Ecoute: транскрипция сказанного интервьюером и спикером в реальном времени в раздельные текстовые поля. Под капотом GPT-3.5 + маленькая версия Whisper для text2speech. Нужен API ключ OpenAI.

FunASR: тоже опенсорс инструмент для распознавания речи, но работает для конференций с большим количеством участников.

🤖 ЧАТЫ 🤖

OpenAI: ChatGPT вышел на iOS (Android позже подъедет) с поддержкой Whisper для перевода голоса в текст. Пока только для акков из США. Также накатили дефолтный WebBrowsing для владельцев плюсов, а не через плагин WebPilot который от третьих лиц и ему надо доверять. Очень ждём Code Interpreter вот это будет вообще разнос.

Запрещёнка анонсировала свой аналог Copilot для написания кода, а также показала свой чип MTIA v1 для ускорения DL с фокусом на рекламу.

Google: добавят в Colab возможность генерить код с помощью модели Codey, которая основана на PaLM 2. К слову выяснилось, что последняя обучалась на 3,6 трлн токенов, что в 5 раз больше, чем предыдущая модель. Посмотрим, что им это даст раз словам Сэма (OpenAI) и Эмада (Stability) гнаться за токенами нет смысла, а маленьких моделей показывающих годные результаты не мало.

Чувак с помощью социальной инженерии вытащил из GitHub Copilot системные промты.

Другой чел нашёл как с дать ChatGPT полный доступ над своей системой.

Microsoft: выкатили датасет TinyStories 2,5М со словарным запасом 5-летнего ребёнка, который написан GPT-3.5 и GPT-4 и подходит для тренировки и валидации новых LM размером до 10М параметров. Плюс опубликовали исследование на тему обмена данными между разными LLM.

Tascade: добавили генерацию с помощью GPT-4 списка задач, отслеживания его выполнения, создания майндмэпа и тд.

DreamGPT: усиливаем галлюцинации нейронок, для создания новых идей.

Dora: генерируем одностраничный сайт по текстовому промту.

Gradio: используем любую модель с Gradio по API через JavaScript.

TokenHawk: ещё один лама чат на WebGPU.

Дайджест пока я гонял на PHD фест: 📹 ВИДЕО + АРТ 🎨 Stability AI: выпустили DreamStudio в опенсорс под названием StableStudio.

3 минуты

22 мая 2023