89 подписчиков

Неделька выдалась жаркая. Основное пойдёт отдельными постами, а пока дайджест:

📹 ВИДЕО + АРТ 🎨

Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины.

Nijijourney: у этого генератора аниме-картинок улучшилась детализация и рендер текста/иероглифов.

Kling: новый мощный китайский генератор видео. Хорошее качество картинки и понимание окружающего пространства.

Pika: обновили image-2-video модель. Улучшилось качество и стабильность генерируемого видео.

Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица.

Phygital+: обновили Face Swap. Генерация стала реалистичнее и точнее.

Real3D: шустрый генератор 3D. Но качество уступает Meshy, CRM, и другим.

Unique3D: тоже генерация 3D объектов. Результаты получше, чем у модели выше.

DreamGaussian4D: получаем из картинки движущуюся 4D сцену на основе сплатов.

Lumina: нейронка для генерации в разных модальностях (изображения, музыка).

Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс.

🎸 ЗВУК 🎸

Udio: выпустили Audio Promting, инструмент для генерации на основе аудио от пользователя. Конкурент Audio Input от Suno.

Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio.

See-2-Sound: скармливаем видео и получаем звуковые эффекты.

🤖 ЧАТЫ 🤖

HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model.

LaVague: фреймворк для создания промтом AI-агентов, которые могут выполнять задания в интернете.

Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач.

Chat with MLX: интерфейс для локальной работы c разными LLM в формате MLX для маков.

Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике.

Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT.

Yandex: выпустили YaFSDP для ускорения обучения LLM и сокращения расходов на GPU.

FastEmbed: в версию v 0.3 добавили поддержку новых эмбеддингов.

Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая.

Как сделать свой чат по PDF на основе Mistral.

Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля.

VideoLlama 2: новая визуальная языковая модель (VLM) для чата по картинкам и видео.

MotionLLM: тоже VLM, но с фокусом на понимании поведения человека в кадре.

Конвертор PDF в датасет.

3D-Grand: VLM для чата по 3D локациям.

Magpie: генерация высококачественных данных для алаймента LLM.

Как сделать своё AI-приложение для выжимки YouTube видосов на основе Gradio, Groq, и Replit.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

2 минуты

15 июня 2024