Найти в Дзене
WhatDreamsCost-ComfyUI
В комфи появился инструмент для сброки видео через удобный интерфейс, это не официал, просто набор кастом нод, который упрощает создание видео, работу с ними и сборку более удобных воркфлоу внутри комфи Главный алмаз это LTX Director, полноценный таймлайн-редактор для LTX 2.3 внутри ComfyUI. В нём есть интеграция Prompt Relay, поддержка first / middle / last frame, работа с custom audio и img2vid и txt2vid генерация В репозитории есть ещё несколько интересных инструментов, Multi Image Loader с встроенной галереей и сортировкой изображений, LTX Sequencer для FFLF-сценариев, Speech Length Calculator...
5 часов назад
Команда человекоподобных роботов отрабатывает полную 8-часовую смену на уровне, сопоставимом с человеческим
Figure запустили стрим на ютубе, на котором их Helix-02 уже на протяжении 25 часов выкладывает какие то посылки на ленту, за это время он переместил на ленту 32000 коробок и пакетов Я не особо понял смысла этого робота, если это можно было автоматизировать роликами ведущими к ленте, но надо понимать что это просто показная эксплуатация, с целью показать сколько без перерывов может работать их механизм И справедливости ради скажу, что мне очень нравится как робот агрессивно толкает посылки...
1 день назад
Совет на ближайшие годы — изучайте ВАЙБ-КОДИНГ
ИИ уже пишет код, чинит баги, генерирует тесты, документацию и помогает запускать продукты быстрее, чем это делали классические команды разработки. И это уже не "будущее когда-нибудь", а реальность, которая меняет рынок уже сегодня И те, кто научится вайбкодить сейчас, будут увереннее конкурировать на рынке и зарабатывать больше тех, кто по-прежнему делает всё вручную...
3 дня назад
Евангилион? Аватар? Меха
? Unitree сделали GD01 - пилотируемого, трансформируемого меха Заявленная цена 650.000$, весит он 500кг с пилотом Позиционируется это как гражданская машина, но я сомневаюсь что это легализуют в эксплуатации) Ваше мнение по видео показу ⌨️
3 дня назад
Gemini Omni
В Gemini засветилась новая модель Gemini Omni в интерфейсе нашли строки "Powered by Omni” и “Create with Gemini Omni”. По описанию, она умеет генерировать видео, ремиксить видео, редактировать их прямо в чате и запускать шаблоны Если утечка подтвердится, а я думаю она подтвердится, это значит что нас ожидает не прост видеогенератор отдельный, а скорее всего полноценная мультимодалка внутри гемини и вот это уже станет прорывом я уверен По ранним демо выглядит сильно. Я нашел...
4 дня назад
Отзыв остриса, того самого помешанного психа на создании лор для генераторов, о новой HiDream-O1
Сама рецензия от него крайне положительная, значит что скоро моделька появится в AI Toolkit и можно будет хорошенько запастись качественными лорами для нее Ждем с нетерпением, уверен с лорами она будет...
4 дня назад
HiDream-O1-Image
Новый лидер, опенсорс генератор и редактор картинок, дебютировал на 8-м месте в Artificial Analysis txt2img Arena, обошел всех в опенсорсе и многих в закрытых В одних токенах за счет архитектуры она делает и txt2img и img2img и персонализации Разрешение картинок у нее 2048 × 2048 - это нативно и прямой синтез Сразу по цензуре немного пройдусь, помню у меня спрашивали чем можно отредактировать купальник на фотке, так вот она сможет, она не...
5 дней назад
OpenAI запустила платформу для размещения рекламы в ChatGPT
OpenAI открыла для всех доступ к Ads Manager инструменту, через который компании могут самостоятельно запускать и управлять рекламными кампаниями в ChatGPT. На старте сервис доступен рекламодателям в США. Также убрали прежний минимальный порог входа в $50 000 и, помимо модели оплаты за показы, добавили оплату за клик Наша команда тоже развивает такое решение Мы умеем интегрировать рекламу прямо в ответы любой языковой модели так, чтобы она была максимально релевантной контексту беседы и конкретному запросу пользователя, не просто по ключевым словам, а с учётом желания, этапа выбора и содержания диалога...
1 неделю назад
Realtime TTS-2
Очень сильная модель синтеза речи, созданная не для озвучки текста, а именно для живого диалога, учитывает не только слова, но и аудиоконтекст разговора: тон, темп, эмоциональное состояние собеседника и динамику предыдущих реплик Модель умеет принимать voice direction на естественном языке. Плюс Realtime TTS-2 сохраняет единую голосовую идентичность в более чем 100 языках, даже если переключатьсч между ними в одной реплике Conversational Awareness: система анализирует именно звук прошлых реплик, а не только транскрипт...
1 неделю назад