75 подписчиков
Дайджест:
📹 ВИДЕО + АРТ 🎨
InstantID: этот инструмент для вписывания людей по одному фото в нужный контекст можно использовать в веб-интерфейсе A1111 для совмещения лиц двух персоналий через controlnet юниты.
DepthAnything: быстро получаем получаем карту глубины картинки/видео, можно использовать для ControlNet. Ещё стоит обратить внимание на Marigold.
🎸 ЗВУК 🎸
OWSM: тоже транскрибатор речи в текст, но работает с 151 языком и есть перевод между любыми языками.
🤖 ЧАТЫ 🤖
Llava: чат по визуалу (VLM) обновился до V1.6. Модель лучше распознаёт текст на картинках и понимает мир.
Лидерборд нейронок с фильтрами по корпоративным задачам.
Исследования:
* Self-Rewarding Language Models — модель сама себя вознаграждает во время обучения, что приводит к повышению производительности и возможности постоянного совершенствования (бумага / подкаст / выжимка).
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
1 минута
1 февраля 2024