Найти тему
75 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

A1111 обновился до v 1.7. Появилась поддержка SD Turbo, ускорение на 40% через HyperTile и не только.


Gradio: подтянули поддержку LCM. Правда пока версии SD 1.5.

AMD и HuggingFace: адаптировали разные библиотеки для ускорения работы на новом серверном железе на базе Instinct.

Новая улучшалка для SDXL — Direct Preference Optimization (DPO). Делает генерации ближе к промту. Помимо версии для SDXL, есть версия для SD 1.5

Также появилась демка другой улучшалки - FreeInit. Можно попробовать скидывать Pika или Runway для генерации в качестве на основе прототипов.

VolumeDiffusion: генерим 3D объекты по тексту.

GeoDream: тоже генератор 3D, но с поддержкой Stable Zero123.

Marigold: получение карты глубины поженили с 3D принтингом.

3DLFM: получаем 3D каркас объектов из 2D картинки.

Shap-Editor: переносим стиль одного 3D объекта на другой как целиком, так и частично.

DreamDrone: генерим пролёты дрона.

UDiffText: ставим надписи на картинках.

TextDiffuser-2: тоже генератор подписей.

SlimSAM: получаем сегментацию на уровне оригинального SAM, используя всего 0,1% данных.

GLEE: сегментируем много объектов на картинках и видео.

SlimNeRF: оптимизация нерфов для работы на мобилках и маломощном железе.

Apple: представили исследование FastSR-NeRF по улучшению работы нерфов на потребительских устройствах.

HAAR: генерация причёски по тексту. Кода нет.

Google: показали TIP, инструмент для восстановления зашакаленных картинок через текстовое описание того, что в кадре должно быть. Кода нет.

Также они показали VideoPoet, языковую модель для генерации видео без обучения. Учитывая, что Google год назад тоже показывали text-2-video модель, но так ничего и не выпустили, а сейчас у них гора конкурентов особенно в опенсорс, веры в эту модель мало. Кода нет.

🎸 ЗВУК 🎸

Microsoft: добавили генератор песен Suno в свой Copilot в виде плагина на боковой панели.

SeamlessM4T: демо переводчика голосовых записей на разные языки, включая русский.

🤖 ЧАТЫ 🤖

Mixtral только вышла, а народ уже вовсю пилит на её основе новые модели: Dolphin: версия без цензуры, в которой также улучшена работа с кодом. Вот видос на эту тему и GPTQ от Bloke. Плюс блог пост от автора.

OpenAI: выпустили гайд по составлению промтов для GPT-4. Для тех, кто пользуется давно в целом ничего нового. А новичкам будет полезно. В двух словах - модель не умеет читать ваши мысли, максимально точно описывайте что вы хотите получить и в каком формате. Если есть опорные доки/тексты/код/скриншоты - скармливайте ей. Народ уже обучил GPT на эту тему.

Microsoft: выпустили инструмент LLMLingua для сжатия промтов до нужного количества токенов и ускорения инференса.

Apple: представили LLM in a flash для оптимизации запуска языковых моделей на мобильных устройствах.

Используем DeciLM-7B-instruct в связке с LangChain для создания своего бота, чтобы чатиться по PDF'кам.

CALM2-7B: полку маленьких, но способных моделей прибыло.

CogAgent: это AI-агент на основе CogVLM для чата по визуалу.

FLAIR: датасет из 20 млрд снимков земли со спутников.

Инструмент для миграции датасета с Github на Hugging Face

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
2 минуты