81 подписчик

Дайджест:

📹 ВИДЕО + АРТ 🎨

Phygital+: новые стили для тренировки, смена дня и ночи в кадре, Dreambooth 2.1 теперь не нужны карты глубины, промт-помощники внутри текстового поля.

TextDiffuser: модель для text-2-image генераций, смены стиля и инпейтинга.

Ещё один вариант редактирования изображения текстом. Теперь через DDPM инверсию.

Классификация изображений без словаря.

SAM3D: использование Segment Anything для zero-shot 3D обнаружения.

HeadSculpt: генерация 3D говорящих голов по тексту.

VisualGPTScore: модель для оценки связи между изображением и текстом. Кода пока нет.

Google: представили Video Adapter, метод адаптации больших предобученных текст-видео моделей к генерации узко-специализированного контента, которому их не учили. Кода нет.

Исследование от них же об эффективности диффузии для оценки оптического потока и монокулярной глубины.

🎸 ЗВУК 🎸

ByteDance: представили PolyVoice модель для speech-2-speech голосового перевода. Может сохранять акцент.

🤖 ЧАТЫ 🤖

GPT4ALL: интерфейс теперь поддерживает 100+ локальных LLM моделей. Также добавлены плагины, через которые можно общаться со своими данными (pdf и так далее).

LLM-Blender: модель, в которой можно объединять разные LLM и их преимущества. PairRanker выявляет различия между кандидатами, а GenFuser объединяет лучшие результаты. В комплекте идёт бенчмарк MixInstruct для оценки моделей.

Фреймворк для обнаружения уязвимостей в коде на этапе генерации и редактирования. Подход показывает улучшение выявления эксплоитов на 10% по сравнению с существующими моделями, в то время как применение фреймворка на коде с высокими рисками снижает количество уязвимостей на 90%.

Ламу на 7B параметров оптимизировали под запуск на Metal GPU Apple в M2 Max запустили со скоростью 40 токенов в секунду с 0% нагрузкой на процессор.

Viedo-LLaMA: новы чат с видео на основе ламы.

HuggingChat: теперь может выходить в интернет.

Falcon: появилось демо для модели 40B. Эта опенсорсная модель хорошо себя показывает на тестах и у неё есть коммерческая лицензия.

Gradio: представили возможность разворачивать со своего компа AI-приложения командой из двух слов (𝚐𝚛𝚊𝚍𝚒𝚘 𝚍𝚎𝚙𝚕𝚘𝚢)

Microsoft: исследование автоматизации процессов с помощью языковых моделей.

Fine-Grained RLHF: тренировка моделей на основе подробных функций вознаграждения для улучшения генерации текста и уменьшения недостатков языковых моделей.

GRES: обновлённый бенчмарк и датасет RES, который теперь берет на вход несколько объектов или никаких вовсе.

Orca-13B: бумага с обучением модели использованию сложных объяснительных следов от GPT-4. Orca превосходит другие модели на сложных тестах и экзаменах, обучаясь пошаговым объяснениям и показывая конкурентоспособную производительность.

InstructZero: оптимизация инструкций для black-box языковых моделей вроде ChatGPT. Осуществляется через low-dimensional soft prompt и методы Bayesian optimization.

OpenAI не хватает GPU, но в ближайших планах у них: снизить цены, сделать API для файнтюна моделей, увеличение контекстного окна, и другое.

Gorilla: модель для вызова естественным языком 1600+ сторонних API. Для связи с API ещё можно юзать ToolBench, который тоже на ламе.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.

2 минуты

6 июня 2023