76 подписчиков
Дайджест:
📹 ВИДЕО + АРТ 🎨
Adobe: обновили Firefly до V3 в фотошопе и InDesign. Теперь можно генерить картинки в нужном стиле на основе рефа, менять фон, делать апскейл.
MindBridge: получаем картинку из мыслей с помощью фМРТ. В отличии от других методов, здесь реконструируются изображения множества объектов с помощью одной модели.
🎸 ЗВУК 🎸
Micro MusicGen Jungle: а вот и первая весточка локальных микромоделей затюненых генерить определённый музыкальный стиль (как я и говорил), в данном случае jungle. Качество пока не очень, но только пока. У автора за 8 секунд генерится десяток 10-секундных фрагментов.
MyShell: выпустили OpenVoice V2. Клонируем голос на основе короткого семпла и генерим на разных языках и акцентах. Похоже на MeloTTS, но там нельзя прикладывать реф целевого голоса. Лицензия на свободное коммерческое использование.
Напеваем мелодию и генерим семпл.
🤖 ЧАТЫ 🤖
Вокруг ламы 3:
Microsoft: выкатили маленькую, но способную языковую модель Phi 3 mini, с контекстным окном от 4К до 128К (можно скармливать книжки). Есть варик запустить в локально в LM Studio или Ollama. Или онлайн в Hugging.chat
Snowflake: крупная LLM с 408B параметров, из которых 17 активных и 128 (!) экспертов. На видюху не влезет поэтому вот демо.
Apple: релизнули серию языковых моделей OpenELM в размерах от 270M до 3B, натренированных на ~1,8Т токенов. Отличаются эффективностью использования параметров по слоям. (спс @JohnDoe171)
Maestro: фреймворк для оркестровки AI-агентов с помощью локальных моделей вроде ламы 3 или закрытых как Claude или GPT-4.
Qdrant: в версии V 1.9 этой векторной база данных для AI улучшения в скорости восстановления нод и не только.
Исследования:
* Multi-Head MoE — делим токены данных на подтокены и скармливаем разным экспертам, повышая их активацию.
* Сравнение производительности WebGPU против Vulkan.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
2 минуты
25 апреля 2024