75 подписчиков
Неделька выдалась жаркая. Основное пойдёт отдельными постами, а пока дайджест:
📹 ВИДЕО + АРТ 🎨
Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины.
Kling: новый мощный китайский генератор видео. Хорошее качество картинки и понимание окружающего пространства.
Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица.
Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс.
🎸 ЗВУК 🎸
Udio: выпустили Audio Promting, инструмент для генерации на основе аудио от пользователя. Конкурент Audio Input от Suno.
Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio.
🤖 ЧАТЫ 🤖
HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model.
Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач.
Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике.
Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT.
Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая.
Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
2 минуты
15 июня 2024