Найти тему
75 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

Делаем набросок и быстро получаем арт.

Semantic Palette: тоже генератор артов из скетчей, только с большим функционалом.

AnimateDiff-Lightning: шустаря генерация видео с пришитым контролем камеры.

Magnific: апскейлер научился менять стили изображения.

FeatUp: повышение семплирования визуала, для увеличения пространственного разрешения любой модели в 16+ раз.

Stability AI: веб-интерфейс Stable Swarm, с нодовым UI и возможностью роботы в распределёнке на множестве GPU, перешёл в стадию беты. Добавилась поддержка Cascade, генерации видео через SVD, лицензия сменилась на MIT. Подробнее о Stable Swarm писал ранее.

Также они выпустили ещё одну модель для генерации 3D — StableVideo 3D. Состоит из двух частей: одна генерит из картинки видео с круговым облётом, а вторая делает 3D. По качеству — CRM лучше.

MVControl-threestudio: аналогично генератор 3D, но уже с помощью гауссиан. CRM всё ещё лучше.

Isotropic3D: здесь же модель для получения 3D, и по качеству уже сопоставимо с CRM, но нужна как минимум A100 чтобы её гонять.

Shutterstock: а вот тут уже генерация 3D даже получше, чем CRM. Причём можно и скачать glb, и зарефайнить, и поиграться с параметрами.

MindEye2: обновлённому проекту по генерации изображений из мыслей на основе снимков фМРТ теперь достаточно 1 часа данных.

🎸 ЗВУК 🎸

Pika: появилась возможность генерить для видео звуковые эффекты.

Natural Speech 3: конвертор одного голоса в другой с соблюдением акустических деталей. XTTS и HierSpeech++ всё ещё лучше. Но у них скоро появится конкурент.

🤖 ЧАТЫ 🤖

Microsoft: под капотом бесплатной версии Copilot теперь GPT-4 Turbo с контекстом 128К (можно скармливать книжки). Работает в "Креативном" и "Точном" режимах.

Google: открыли доступ к Gemini Pro 1.5 с контекстом в 1М, но в России и Европе он не доступен.

LlamaFactory: фреймворк для файнтюна 100+ LLM (языковых моделей) без необходимости кодить. На русском в том числе.

Common Corpus: крупнейший публичный датасет из 500 млрд. слов для тренировки LLM на разных языках, не нарушая авторских прав.

WebSight: новый генератор HTML из скриншотов. Подборка схожих проектов здесь.

Fireworks: запустили сервис для быстрого файнтюна LLM, среди которых Mixtral.

Gorilla: инструмент для расширения функционала опенсорсных LLM через API обзавёлся фильтрацией ненужных документов (RAFT) перед генерацией ответа.

Gradio: текстовое поле можно теперь делать мультимодальным и к словам прицеплять дела картинки.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
2 минуты