Холст.ИИ - Генерация фото и видео

Главная Статьи

Про Gemini 2.5 Computer Use и Google CodeMender В ответ на широкий размах на DevDay от OpenAI, Google выкатили несколько своих обновлений - модель заточенная на использование компьютера как человек, и отдельная для фиксов уязвимостей в коде. Gemini 2.5 Computer Use может пользоваться браузером, кликать, скроллить и печатать прямо как человек, показывая 69% на Mind2Web против 61.3% у OpenAI Operator. На вход на каждом шаге модель получает скриншот и предыдущий контекст, затем она действует и делает скриншот новой изменившейся среды, и так по кругу. Документация и примеры Попробовать тут Также, в качестве примера использования Google DeepThink была представлена модель CodeMender - ключевой её задачей является автоматическое исправление уязвимостей, и Google хвастаются успешными исправлениями в 72 open-source проектах. Видео - CodeMender, Computer Use Картинки - Производительность Computer Use

2 часа назад

Про OpenAI DevDay, и Tencent Hunyuan Vision 1.5 Thinking Прошла конференция OpenAI DevDay, на которой компания Сэма Альтмана представила несколько новшеств, угрожающих половине AI-стартапов долины. - Поддержка "чата с приложением" в ChatGPT - забронируй мне отель в Booking com, сделай презентацию в Canva, составь плейлист в Spotify - Sora 2 / Sora 2 Pro и GPT-5-Pro доступны в API - Аналог n8n под названием AgentKit - средство для создания воркфлоу из нескольких действий в визуальном редакторе - Codex теперь доступен в виде SDK и codex exec (делает задачу без интерактивной сессии) + github action Моё мнение - ChatGPT Apps это новый AppStore, разрабам стоит обратить внимание, а владельцам бизнеса и создателям приложений - подумать о том чтобы туда зайти, ведь это доступ к 800 миллионам пользователей (в неделю) по всему миру. А тем временем Tencent представили модель которая занимает 3е место на lmarena.ai , стоя наравне с Claude 4 и Gemini 2.5 Flash. Обещают фокус на "визуальное понимание", мультимодальное размышление (что бы это не значило) и поддержку множества языков. Выложить в опенсорс обещают в конце октября, но в API она доступна уже сейчас. Картинки - Tencent Hunyuan Vision 1.5 Thinking Видео - OpenAI

1 день назад

Про маленькие Qwen3-VL и лоботомию Sora 2 Тезис с "маленькими да удаленькими" моделями находит подтверждение всё чаще - Alibaba Qwen выпустили версию модели Qwen3 VL (vision) которая соревнуется с GPT-5-Mini и Claude 4 Sonnet, будучи при этом моделью с 30 млрд параметров (3 активных) Попробовать тут: huggingface.co/...emo Примеры использования от Qwen на Github HF Также, я прежде не писал про Sora2 - модель для генерации видео, т.к. хотел протестировать сам. Лучший API/интерфейс который я нашел на текущий момент (4 видео бесплатно) - kie.ai/...a-2 Однако, хотя модель на старте могла использовать любых персонажей (South Park, SpongeBob и других), что добавило ей популярности - к сожалению ей провели лоботомию, а аккаунты "плохих" пользователей отключили. Сэм Альтман даже опубликовал пост в блоге, чтобы "объяснится" - люди генерируют не то, что они предполагали и сильно больше чем они ожидали, поэтому "ждите изменений". Поэтому, пока набиваем шишки - модель скоро будет доступна на Холст.ИИ (а пока советую Wan2.5), вместе со снижением цен. Картинки - Qwen3-VL-30B-A3B Видео - The Quack by Sora 2

2 дня назад

Про Gemini 3.0 Pro, обновления в Nano Banana и Perplexity Comet Google выкатили обновления для своей нашумевшей модели Gemini 2.5 Flash Image, добавив в частности новые соотношения сторон (21:9, 16:9, 4:3, 3:2, 1:1, 9:16, 3:4, 2:3, 5:4, 4:5) и другие улучшения. Также в сети опубликовали A/B тесты Gemini 3.0 Pro и Flash, отметив высокое качество моделей - однако пока рано делать какие-то выводы, ведь официально модели не представлены и не протестированы. Качество можно оценить на прикрепленных видео с многоугольником и солнечной системой. Perplexity представили свой "агентский браузер" под названием Comet. По задумке разработчиков, Comet может организовать вкладки в браузере, написать email, купить товар в онлайн-маркетплейсе или найти одну и ту же новость в разных изданиях. Видео - Comet, Gemini 3.0 Pro (supposed) Картинки - Gemini 2.5 Flash Image (updated)

5 дней назад

Про LFM2-Audio, GLM-4.6 и Claude Sonnet 4.5 Liquid AI представили интересную модель для распознавания речи и генерации речи на устройстве пользователя LFM2. Имея всего 1.5млрд параметров, она показывает крайне низкую задержку в 95 мс (длительность моргания составляет примерно столько же) и соперничает с топовыми моделями Qwen2.5-Omni-3B (5B), Lyra-Base (9B), GLM-4-Voice (9B) по качеству. Попробовать тут HF Также из интересных релизов хочу отметить Claude Sonnet 4.5, которая снова становится SOTA (State-Of-The-Art) для кода. Те, кому нужно знают, где её попробовать - а я хочу порекомендовать свежую статью про Context Engineering. Она про искусство дать модели ровно то, что ей нужно для решения задачи. Жду, пока добавят в Augment Code - Sonnet 4 в нём отлично работает. Более дешевый, но не менее мощный конкурент под названием GLM-4.6 доступен в базовой версии всего за 3$ в месяц и работает с Claude Code, Cline, Roo Code, Kilo Code, OpenCode и им подобными из коробки. На Terminal Bench она показывает 40.5% против 50.0% у Claude Sonnet 4.5 - весьма достойно, и особенно круто учитывая соотношение цена/качество. Видео - LFM2-Audio Картинки - Sonnet 4.5, GLM-4.6

1 неделю назад

Про клей для костей и Hunyuan Image 3.0 Раз уж я пишу последнее время про изобретения и новшества из Китая, и у меня всё ещё сломана рука - решил написать про интересное обновление на эту тему от китайской компании сделавшей "клей для костей" под брендом Bone02. Вдохновившись устрицами, которые выделяют клейкую субстанцию (био-цемент) для прикрепления к различным поверхностям они создали похожую для людей: - Полностью био-растворяема в течение 6 мес - Выдерживает до 180кг - Требует минимально инвазивного отверстия для закачки "клея" - Пониженный риск инфекции по сравнению с металлическими пластинами 源囊生物 (Yuannang Bio) привлекли 100млн юаней в Series A, провели испытания на 150+ пациентах. А в мире AI исследователи из Hunyuan порадовали нас HunyuanImage 3.0 - модель с огромным количеством 80 млрд параметров, из которых 13 активны. По уверениям разработчиков, она: - Понимает длинные промпты более 1000 слов - Имеет контекст мира / окружения - Генерирует точный текст без искажений Попробовать тут: hunyuan.tencent.com/...age Скоро, на Холст.ИИ - Wan2.5 там уже доступна Github HF Видео - HunyuanImage3.0 Картинки - Bone02

1 неделю назад

Wan2.5 от Alibaba для генерации видео со звуком уже доступна на Холст.ИИ! Вышедшая буквально на днях модель Wan 2.5 уже доступна - генерируйте видео со звуком, используя свои изображения или без них. Модель является конкурентом Veo3, ведь ранее она только могла делать видео со звуком, теперь же - у нас есть более дешевый и не менее качественный китайский аналог! Впервые, доступна генерация видео со своим звуком - wav/mp3, 3-30с, ≤15МБ файл можно приложить вместе с изображением. В приложении видео, сгенерированное на Холст.ИИ! P.S. Для бизнес-условий сотрудничества и специальных тарифов - обращайтесь к нам в поддержку.

1 неделю назад

Про Ring flash linear 2.0, Tongyi Fun и Tencent Hunyuan3D-Omni Продолжая релизить больше моделей, чем реально осознать и тем более - за всем этим уследить, китайские компании радуют нас снова. В прошлом посте я уже рассказывал про Ling-flash-2.0 - теперь, Inclusion AI дообучили свои модели еще на 1Т токенов и сделали модель с 6.1B активных параметров (104B всего) которая имеет 128к контекста и тягается с Gemini2.5 Flash/GPT-OSS-120B Medium, будучи при это очень быстрой и эффективной. Скачать на HuggingFace В то же время, лаборатория Tongyi от Alibaba представила аудио модель Tongyi Fun, натренированную на десятках миллионов часов речи и способную понимать глубокий контекст со встроенным RAG движком. Это минимизирует кол-во галлюцинаций, ошибок и позволяет генерировать естественную, стабильную по качеству речь на многих языках. Ждём подробностей - где скачать и попробовать, чтобы сравнить с ElevenLabs и другими. А Tencent решают свои проблемы в Hunyuan3D-Omni - на этот раз, можно создавать 3D ассеты c помощью не только входных изображений, но и "point cloud" или "bounding box" ( "ControlNet of 3D") - увеличивая точность сгенерированных 3D объектов. Github HF Arxiv Видео - Tongyi Fun, Hunyuan3D-Omni Картинки - Ring Flash Linear 2.0

1 неделю назад

Новая модель от Alibaba - Qwen Image Edit Plus уже на Холст.ИИ Улучшенное качество генерации, поддержка нескольких изображений - без изменения стоимости. Пробуйте сейчас всего за 3 кредита в разделе "Маркетплейсы"! На приложенных изображениях вы можете сравнить качество комбинирования картинок. Я просил надеть носки на женщину - как вы видите, не изменился ни текст, ни черты лица модели, ни какие-либо другие элементы окружения. А также, несколько примеров использования модели от разработчиков.

2 недели назад

Про безостановочную очередь от Alibaba Qwen Китайская AI-компания Alibaba Qwen удивила всех чередой подряд выпущенных моделей разных сортов и размеров, которые все сложно описать даже в одном посте - на других вообще не остается места. Попробую коротко о главном: - Первая в своём роде серия Qwen3Guard для модерации выхлопа других AI моделей не даст AI рассказать про создание бомбы в 3х размерах, 0.6B, 4B, 8B - Qwen3-Max-Thinking догоняет Grok 4 Heavy и Gpt-5 Pro в AIME25/HMMT25, делая Qwen - одной из передовых моделей, наравне с компаниями из Кремниевой Долины - Qwen3-Omni - первая мультимодальная модель понимающая и текст, и аудио, и картинки, и видео - понимает до 30мин аудио и много другого - Qwen3-VL - модель для распознавания видео и изображений. Определяет точные места в видео до 2х часов, понимает 32 языка, 256к токенов контекста (с потенциалом до 1М) - Qwen3-Coder-Plus, которая получает 69.6 на SWE Bench. Пробуйте бесплатно в Qwen Code (на русском) - Qwen-Image-Edit-2509 - улучшенная версия Qwen Image Edit с возможностью использовать сразу несколько изображений. UPD: Уже доступна на Холст.ИИ А также Qwen3-Livetranslate, Qwen3-TTS и грядущая Wan 2.5 Preview c нативным аудио, как у Veo3. Картинки, видео - всё подряд от Qwen3

2 недели назад

Про thinking версию длиннокота (Meituan Longcat) Компания с длинным котом на логотипе представила новую версию своей модели LongCat-Flash-Thinking, которая, если верить их бенчмаркам, "уделывает" модели от Google и OpenAI, или сражается на равных. Теперь это SOTA открытые модели в задачах по логике / математике / коду, при этом они используют на 64.5% меньше токенов чтобы достичь отличных результатов на бенчмарках AIME25. Особенно интересен технический репорт - там инновации вроде асинхронного RL (Reinforcement Learning) - представлена система DORA (Dynamic Orchestration for Async Rollout) Каждому аккаунту на их API платформе дают по 500к токенов бесплатно, и по идее они сбрасываются в полночь по пекину - можно попробовать через OpenCode например. Попробовать в чате бесплатно тут Смешная игра с длинным котом от создателей, делитесь результатами (у меня получилось 127.56км за 52.53 секунд - левой рукой) Huggingface API тут Картинки - бенчмарки от разработчиков, их платформа изнутри, архитектура

2 недели назад

Про 2kk токенов контекста от Элона Маска в Grok 4 Fast В новопредставленной версии модели Grok 4 Fast от xAI есть одно новшество, которое очень радует меня лично - окно контекста в 2кк токенов. Помимо очень низкой стоимости в $0.2/1M Input и $0.5/1M output, которая ниже в 20-25 раз чем у конкурентов GPT-5 и Gemini 2.5 Pro - модель от владельца твиттера выдавала в тестах Artificial Analysis скорость в 344 ток/сек (хотя скорее всего, в дальнейшем она не будет такой быстрой с повышением нагрузки). Можно попробовать бесплатно на OpenRouter или на Vercel AI Gateway в течение ограниченного времени, а также на grok.com и в приложениях iOS и Android. А также недавно на гитхабе huggingface засветилась Qwen3-Omni - ждём выхода, если это не утка.

2 недели назад