Найти в Дзене
Про Gemini 2.5 Computer Use и Google CodeMender В ответ на широкий размах на DevDay от OpenAI, Google выкатили несколько своих обновлений - модель заточенная на использование компьютера как человек, и отдельная для фиксов уязвимостей в коде. Gemini 2.5 Computer Use может пользоваться браузером, кликать, скроллить и печатать прямо как человек, показывая 69% на Mind2Web против 61.3% у OpenAI Operator. На вход на каждом шаге модель получает скриншот и предыдущий контекст, затем она действует и делает скриншот новой изменившейся среды, и так по кругу. Документация и примеры Попробовать тут Также, в качестве примера использования Google DeepThink была представлена модель CodeMender - ключевой её задачей является автоматическое исправление уязвимостей, и Google хвастаются успешными исправлениями в 72 open-source проектах. Видео - CodeMender, Computer Use Картинки - Производительность Computer Use
14 часов назад
Про OpenAI DevDay, и Tencent Hunyuan Vision 1.5 Thinking Прошла конференция OpenAI DevDay, на которой компания Сэма Альтмана представила несколько новшеств, угрожающих половине AI-стартапов долины. - Поддержка "чата с приложением" в ChatGPT - забронируй мне отель в Booking com, сделай презентацию в Canva, составь плейлист в Spotify - Sora 2 / Sora 2 Pro и GPT-5-Pro доступны в API - Аналог n8n под названием AgentKit - средство для создания воркфлоу из нескольких действий в визуальном редакторе - Codex теперь доступен в виде SDK и codex exec (делает задачу без интерактивной сессии) + github action Моё мнение - ChatGPT Apps это новый AppStore, разрабам стоит обратить внимание, а владельцам бизнеса и создателям приложений - подумать о том чтобы туда зайти, ведь это доступ к 800 миллионам пользователей (в неделю) по всему миру. А тем временем Tencent представили модель которая занимает 3е место на lmarena.ai , стоя наравне с Claude 4 и Gemini 2.5 Flash. Обещают фокус на "визуальное понимание", мультимодальное размышление (что бы это не значило) и поддержку множества языков. Выложить в опенсорс обещают в конце октября, но в API она доступна уже сейчас. Картинки - Tencent Hunyuan Vision 1.5 Thinking Видео - OpenAI
1 день назад
Про маленькие Qwen3-VL и лоботомию Sora 2 Тезис с "маленькими да удаленькими" моделями находит подтверждение всё чаще - Alibaba Qwen выпустили версию модели Qwen3 VL (vision) которая соревнуется с GPT-5-Mini и Claude 4 Sonnet, будучи при этом моделью с 30 млрд параметров (3 активных) Попробовать тут:  huggingface.co/...emo Примеры использования от Qwen на Github HF  Также, я прежде не писал про Sora2 - модель для генерации видео, т.к. хотел протестировать сам. Лучший API/интерфейс который я нашел на текущий момент (4 видео бесплатно) -  kie.ai/...a-2 Однако, хотя модель на старте могла использовать любых персонажей (South Park, SpongeBob и других), что добавило ей популярности - к сожалению ей провели лоботомию, а аккаунты "плохих" пользователей отключили. Сэм Альтман даже опубликовал пост в блоге, чтобы "объяснится" - люди генерируют не то, что они предполагали и сильно больше чем они ожидали, поэтому "ждите изменений". Поэтому, пока набиваем шишки - модель скоро будет доступна на Холст.ИИ (а пока советую Wan2.5), вместе со снижением цен. Картинки - Qwen3-VL-30B-A3B Видео - The Quack by Sora 2
2 дня назад
Про Gemini 3.0 Pro, обновления в Nano Banana и Perplexity Comet Google выкатили обновления для своей нашумевшей модели Gemini 2.5 Flash Image, добавив в частности новые соотношения сторон (21:9, 16:9, 4:3, 3:2, 1:1, 9:16, 3:4, 2:3, 5:4, 4:5) и другие улучшения. Также в сети опубликовали A/B тесты Gemini 3.0 Pro и Flash, отметив высокое качество моделей - однако пока рано делать какие-то выводы, ведь официально модели не представлены и не протестированы. Качество можно оценить на прикрепленных видео с многоугольником и солнечной системой. Perplexity представили свой "агентский браузер" под названием Comet. По задумке разработчиков, Comet может организовать вкладки в браузере, написать email, купить товар в онлайн-маркетплейсе или найти одну и ту же новость в разных изданиях. Видео - Comet, Gemini 3.0 Pro (supposed) Картинки - Gemini 2.5 Flash Image (updated)
5 дней назад
Про LFM2-Audio, GLM-4.6 и Claude Sonnet 4.5 Liquid AI представили интересную модель для распознавания речи и генерации речи на устройстве пользователя LFM2. Имея всего 1.5млрд параметров, она показывает крайне низкую задержку в 95 мс (длительность моргания составляет примерно столько же) и соперничает с топовыми моделями Qwen2.5-Omni-3B (5B), Lyra-Base (9B), GLM-4-Voice (9B) по качеству. Попробовать тут HF Также из интересных релизов хочу отметить Claude Sonnet 4.5, которая снова становится SOTA (State-Of-The-Art) для кода. Те, кому нужно знают, где её попробовать - а я хочу порекомендовать свежую статью про Context Engineering. Она про искусство дать модели ровно то, что ей нужно для решения задачи. Жду, пока добавят в Augment Code - Sonnet 4 в нём отлично работает. Более дешевый, но не менее мощный конкурент под названием GLM-4.6 доступен в базовой версии всего за 3$ в месяц и работает с Claude Code, Cline, Roo Code, Kilo Code, OpenCode и им подобными из коробки. На Terminal Bench она показывает 40.5% против 50.0% у Claude Sonnet 4.5 - весьма достойно, и особенно круто учитывая соотношение цена/качество. Видео - LFM2-Audio Картинки - Sonnet 4.5, GLM-4.6
1 неделю назад
Если нравится — подпишитесь
Так вы не пропустите новые публикации этого канала