90 подписчиков

Дайджест:

📹 ВИДЕО + АРТ 🎨

Hyper SDXL: ускоренная версия SDXL, которая генерит в годном качестве с 1 шага.

Envision3D: 3D генератор c неплохими мешами и кушает всего 12 ГБ видюхи.

ClarityAI: апскейлер картинок, повышающий чёткость и детализацию. Демо.

PlayCanvas: этот быстрый и лёгкий игровой движок на Java Script добавил поддержку WebGPU.

Neurogen: в обновлении FaceFusion v 2.5 генерим дипфейки с липсинком и красим видео.

Adobe: обновили Firefly до V3 в фотошопе и InDesign. Теперь можно генерить картинки в нужном стиле на основе рефа, менять фон, делать апскейл.

Urban Architect: генерация городских сцен в 3D с помощью нерфов.

Orillusion: игровой движок для рендера игр прямо в браузере через WebGPU обновился до v 0.7.2.

MindBridge: получаем картинку из мыслей с помощью фМРТ. В отличии от других методов, здесь реконструируются изображения множества объектов с помощью одной модели.

PhysDreamer: ваяем интерактив с объектами на видео. То, что гугл так и не довёл до релиза.

Looking Glass: теперь можно использовать кастомных аватаров в голограммах.

Классификация визуала с вебки в реальном времени внутри браузера через WebGPU.

Крутим вертим снимки с рентгена.

🎸 ЗВУК 🎸

Micro MusicGen Jungle: а вот и первая весточка локальных микромоделей затюненых генерить определённый музыкальный стиль (как я и говорил), в данном случае jungle. Качество пока не очень, но только пока. У автора за 8 секунд генерится десяток 10-секундных фрагментов.

MyShell: выпустили OpenVoice V2. Клонируем голос на основе короткого семпла и генерим на разных языках и акцентах. Похоже на MeloTTS, но там нельзя прикладывать реф целевого голоса. Лицензия на свободное коммерческое использование.

Напеваем мелодию и генерим семпл.

seewav: визуализатор для любого аудио.

🤖 ЧАТЫ 🤖

Вокруг ламы 3:

* Инструмент для файнтюна ламы.

* Dolphin-2.9-llama3-8b: неотцензуренная версия маленькой ламы 8B.

* Мелкая лама 3 с контекстом 32К.

Microsoft: выкатили маленькую, но способную языковую модель Phi 3 mini, с контекстным окном от 4К до 128К (можно скармливать книжки). Есть варик запустить в локально в LM Studio или Ollama. Или онлайн в Hugging.chat

Snowflake: крупная LLM с 408B параметров, из которых 17 активных и 128 (!) экспертов. На видюху не влезет поэтому вот демо.

Apple: релизнули серию языковых моделей OpenELM в размерах от 270M до 3B, натренированных на ~1,8Т токенов. Отличаются эффективностью использования параметров по слоям. (спс @JohnDoe171)

Qwen 1.5: LLM размером 110B, можно початиться.

PyTorch: в версии v 2.3 улучшенный параллелизм и другие ништяки.

HuggingFace: выпустили Idefics2, визуальную языковую модель (VLM) для чата по картинкам и докам.

MiniGemini: подборка VLM, с отличным пониманием картинок для получения ответов по ним. Демо

Maestro: фреймворк для оркестровки AI-агентов с помощью локальных моделей вроде ламы 3 или закрытых как Claude или GPT-4.

Коллекция MLX версий разных языковых моделей для маков.

Qdrant: в версии V 1.9 этой векторной база данных для AI улучшения в скорости восстановления нод и не только.

Исследования:

* Multi-Head MoE — делим токены данных на подтокены и скармливаем разным экспертам, повышая их активацию.

* Adam Maj разработал с нуля дизайн GPU и приложил пошаговые логи своих действий. Его Твиттер.

* Сравнение производительности WebGPU против Vulkan.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

2 минуты

25 апреля 2024