79 подписчиков

Дайджест:

📹 ВИДЕО + АРТ 🎨

Phygital+: добавили к себе тренировку нейронки в пару кликов, автосохранения, лимиты для генерации сбрасываются теперь раз в неделю, и другие ништяки. Голосани за них на Product Hunt.

Уже появился колаб на SVD.

В LCM теперь можно генерить реалтайм расшаривая экран, например в Figma или Photoshop, как источника для скетчей.

Enfugue: альтернативный webui для генерации картинок и видео, для тех кто не фанат нод.

Neurogen: генерим дипфейки обновлёнными портативными Roop v 1.7 и Rope v 1.4.1, ваяем арт реалтайм в LCM + Fooocus, чатимся в NeuroGPT v 1.6

Колаб для генерации 360 градусных панорам.

Flowty: реалтайм генерация из набросков через LCM.

RunwayTV: можно попасть в генеративное 24/7 тв.

Luma: добавили в 3D генератор Genie сиды и негативные промты. Скоро можно будет юзать на своём дискорд сервере.

Запрещёнка выкатила редактор изображений текстом Emu Edit, который неплохо вписывает предметы в контекст (даже учитывает накладывающиеся слои). Похоже на Rich Text на основе SDXL. Также выпустили генератор видео Emu Video, выдающий 512x512 в 16 к/с длиной 4 сек.

LucidDreamer: ещё один генератор 3D по тексту.

WonderStudio: сделали аддон для Maya и Blender, чтобы выгружать из них своих персонажей.

PhysGaussian: гауссианам прицепили физику для интерактивного взаимодействия. Кода пока нет.

🎸 ЗВУК 🎸

Suno: теперь работают на сайте. Это и две новости ниже найдены у @cgevent

Mustango: генерация на основе длинных детальных промтов. Правда качество не особо.

Google: выпустит модель Lyria для генерации музыки на основе напева/инструментала и промта. А через DreamTrack можно будет создавать 30-сек вертикальные видео с клонированным голосом известных музыкантов.

OWSM: Опенсорсная версия Whisper для перевода голоса в текст.

StyleTTS 2: демо модельки для генерации голоса по тексту и его клонирования.

🤖 ЧАТЫ 🤖

Исследователи представили метод FastBERT, который используя 0,3% нейронов работает на уровне оригинального BERT, и позволяет достигнуть экспоненциального роста производительности языковых моделей. На тестах получили x78 на CPU и x40 в PyTorch.

Brave: приватный браузер добавил языковую модель Leo в боковую панель, которая бесплатно работает на основе ламы 2 и не собирает твои данные.

OpenAI: Сэм Альтман и Грэг Брокман вернулись в OpenAI. Будут перестановки в совете директоров. Тем временем сайт ChatGPT периодически лежит. В мобильной версии голосовое общение стало доступно всем пользователям.

Microsoft: выпустили фреймворк Synapse для распределённой работы с LLM и прицелом на масштабировании. Также зарелизили LLM Orca 2 с 13B параметрами, хорошо показывающую себя в пошаговом размышлении.

Данные соревнования по взлому промтами языковых моделей Hack a Promt выложены в сеть и найдена новая уязвимость.

Lmsys: ускоряем инференс LLM через параллельное декодирование Lookahead. Герганов уже внедряет в llama.cpp

Anthropic: выкатили Claude 2.1 с контекстом в 200к (500 страниц или 150 000 слов), уменьшением галлюцинаций, и расширенной поддержкой API.

Голосовой чат с Zephyr и Mistral.

LanguageBind: мультимодальный чат по видео, картинкам и не только. Сюда же Video-LLaVA.

Intel: выпустили фреймворк для упрощения запуска 4-bit LLM на CPU пользователей.

Доки:

* MoWE: архитектура взаимодействия LLM-экспертов, с упором на малое требование к ресурсам, а сами LLM выступают в роли хранилища данных.

* MultiLoRA: лора с мультизадачностью и горизонтальным масштабированием.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

2 минуты

22 ноября 2023