80 подписчиков
Дайджест:
📹 ВИДЕО + АРТ 🎨
Ostris сделал 16-канальный VAE для тех, кто создаёт свою text-2-image модель. Он даёт больше деталей, структурную консистентность, и лучше цвета. Данный VAE легче других (57 млн параметров vs 83 млн у SD3), он быстрее и потребляет меньше VRAM. Автор делает адаптеры для SD 1.5, SDXL и PixArt. Лицензия MIT.
Тренировка SD3 в колабе. Подогнали 8-битную версию, которая влезает в бесплатную подписку (~ 10 ГБ VRAM). Для трени в FP16 понадобится 12 ГБ, а в FP32 примерно 20 ГБ.
LyCORIS: в версии V3 этого софта для тренировки/файнтюна text-2-image моделей появились новые модульные/ функциональные/ параметрические API, повысилась эффективность, и другое по мелочи.
Neurogen: дипфейкер FaceFusion обновлён до беты v 2.7. Базируется на Cuda 12.4, изменён алгоритм отключения цензуры, добавлен батник для работы с вебкой, и другое.
🎸 ЗВУК 🎸
ElevenLabs: зарелизили Voice Isolator для выделения голоса среди шумов (их пример). Видимо только от шумов, вокал от музыки не выделяет.
MARS5: генератор речи на 140 языках с клонированием голоса на основании 6 сек аудио. Нужно 20 ГБ VRAM.
🤖 ЧАТЫ 🤖
GPT4ALL: В версии V3 этого софта для локального чата с разными языковыми моделями (LLM) обновили интерфейс.
MiniCPM: маленькая, но способная LLM, требующая всего 2 ГБ VRAM и работающая на смартфонах. Есть англ гихаб.
InternLM 2.5: 7B языковая модель с контекстом 1 млн токенов (можно скормить вагон книг). Правда, чтобы погонять нужно 4 A100.
InternLM-XComposer-2.5: визуальная языковая модель (VLM) для чата по видео и картинкам. Поддерживает работу по нескольким изображениям, может генерировать веб-страницы на HTML.
Gradio: если вы используете в своём AI-приложении gradio 3.13 или старее, то ссылки для расшаривания больше не работают из-за соображений безопасности. Обновите Gradio.
Кстати теперь в v 4.37 Gradio можно чатиться компонентами приложений (например музыкальным плеером) и появилась поддержка GIF.
Kyutai: выпустили модель Moshi, с которой можно общаться голосом в реальном времени. Говорят, что может влезть на мак или геймерскую видюху. Преза. Код будет позже.
Hugging Face: обновили страницу для поиска датасетов. Появились фильтры по: модальности, размеру, формату (json, csv, итд).
Google: выпустили Gemma 2 размером 9B и 27B, которая неплохо себя показывает и можно попробовать запустить на геймерском железе. Контекст 8К. Онлайн демо, плюс SPPO версия.
Block Transformer: архитектура языковых моделей (LLM) с глобально-локальным построением, ускоряющая инференс в 10-20 раз.
Запрещёнка: выкатила языковую модель LLM Compiler для написания кода. Построена на основе Code Llama с улучшениями в оптимизации кода и компиляции. Также выпустили модели для дописывания кода, использующую multi-token prediction.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
3 минуты
5 июля 2024