Дайджест:
📹 ВИДЕО + АРТ 🎨
FaceFusion: новый инструмент для создания дипфеков.
DenseDiffusion: метод позволяющий text-2-image моделям точнее следовать промту без переобучения.
Метод изменения освещения в NeRF-сценах.
🎸 ЗВУК 🎸
Google: через AudioLDM 2 теперь можно генерить звук с частотой 48 kHz.
VALL-E X: модель для клонирования голоса и мультиязычного text-2-speech перевода (английский, китайский, японский). Для клонирования голоса достаточно семпла в 3-10 секунд.
🤖 ЧАТЫ 🤖
WizardCoder-34B: генерим код на зафайнтюненой версии Code Lama 34B. Есть встроенная поддержка библиотеки Diffusers. На бенчмарках HumanEval показывает 73,2%, что лучше GPT 4 и Claude-2.
Phind: тоже зафайнтюнили эту CodeLama 34B, но они на HumanEval получили 69,5%.
HuggingChat: добавили поддержку Code Lama 34B Instruct для генерации кода.
Open Assistant CodeLama 13B SFT v10: зафайнтюненная версия OpenAssistant на CodeLama 13B тоже чтобы код генерить.
SoTaNa: ассистент в написании кода. SoTaNa использует ChatGPT для генерации высококачественных инструкций для разработки ПО, и отдаёт это команды на выполнение ламе.
Alibaba: выпустили Qwen-VL, визуальную языковую модель (VLM) для чата по картинкам.
Dolma: датасет из 3Т токенов разного контента (академические доки, код, книги, энциклопедии).
Nougat: визуальный трансформер, который делает распознавание PDF и переводит данные в маркап.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude