76 подписчиков
Дайджест пока я гонял на PHD фест:
📹 ВИДЕО + АРТ 🎨
Stability AI: выпустили DreamStudio в опенсорс под названием StableStudio. Будет поддержка ControlNet, локального инференса через A1111 или WebGPU, расширение через плагины, и другие ништяки. Позже туда подъедет чат. Я поставил потестил, пока это DS один-в-один. Тем более нужен API ключ Stability для работы, который можно взять в акке DS. Когда подъедет возможность использовать локальные мощности, или через плагин подцепить Stable Horde и другие ништяки, тогда будет о чем поговорить.
DragGAN: меняем композицию на фото, указывая мышкой точки как должно меняться движение объекта в кадре. Выглядит довольно интересно.
Phygital+: добавили DeepFloyd для генерации картинки с текстом, добавили Segment Anything (SAM) для аккуратного выделения объектов.
CoDi: модель, способная генерировать контент на связке модальностей текста, арта, видео и музыки. Пока без кода.
Nvidia: представили text-2-video модель PYoCo, которая является файнтюном eDiff-I, но с новым приором шума к видео. Похоже оно даже умеет в текст на видео а-ля DeepFloyd, но всё в стиле зелёных без кода.
BlockadeLabs: добавили ControlNet в свой генератор 360-панорам. Глубину неплохо передаёт. На схожую тему вышла бумага LDM3D про генерацию 3D диффуизей.
Instruct pix2pix, который изначально использовался в A1111, устарел и вместо него лучше использовать контролнетовский pix2pix, который позволяет работать с хайрезом.
🎸 ЗВУК 🎸
GETMusic: генерация музыки и нот любой длительности, в том числе и по рефу. Работают вместе две модели: GETScore генерирует ноты, а GETDiff генерирует музыку. Можно зафайнтюнить на любимой музыке. Похоже входит в набор инструментов Music от Microsoft.
Ecoute: транскрипция сказанного интервьюером и спикером в реальном времени в раздельные текстовые поля. Под капотом GPT-3.5 + маленькая версия Whisper для text2speech. Нужен API ключ OpenAI.
FunASR: тоже опенсорс инструмент для распознавания речи, но работает для конференций с большим количеством участников.
🤖 ЧАТЫ 🤖
OpenAI: ChatGPT вышел на iOS (Android позже подъедет) с поддержкой Whisper для перевода голоса в текст. Пока только для акков из США. Также накатили дефолтный WebBrowsing для владельцев плюсов, а не через плагин WebPilot который от третьих лиц и ему надо доверять. Очень ждём Code Interpreter вот это будет вообще разнос.
Запрещёнка анонсировала свой аналог Copilot для написания кода, а также показала свой чип MTIA v1 для ускорения DL с фокусом на рекламу.
Google: добавят в Colab возможность генерить код с помощью модели Codey, которая основана на PaLM 2. К слову выяснилось, что последняя обучалась на 3,6 трлн токенов, что в 5 раз больше, чем предыдущая модель. Посмотрим, что им это даст раз словам Сэма (OpenAI) и Эмада (Stability) гнаться за токенами нет смысла, а маленьких моделей показывающих годные результаты не мало.
Microsoft: выкатили датасет TinyStories 2,5М со словарным запасом 5-летнего ребёнка, который написан GPT-3.5 и GPT-4 и подходит для тренировки и валидации новых LM размером до 10М параметров. Плюс опубликовали исследование на тему обмена данными между разными LLM.
Tascade: добавили генерацию с помощью GPT-4 списка задач, отслеживания его выполнения, создания майндмэпа и тд.
3 минуты
22 мая 2023