Найти в Дзене
Последние новости и достижения в области IT и  AI

Последние новости и достижения в области IT и AI

- Разборы статей с Arxiv: Сложные научные статьи простым языком. Узнайте о прорывных AI-моделях раньше других. - Практическое применение: Не просто «что нового», а «как это использовать». Личный опыт, эксперименты и рекомендации.
подборка · 37 материалов
Про Seedream-4.5 и Google Workspace Studio Bytedance представили новую версию Seedream 4.5 - улучшена консистентность, работа с текстом и редактирование нескольких изображений сразу. Среди примеров встречаются создание текста для постеров и дизайнерской рекламы, соединение до 14 изображений, чёткое следование инструкциям. Более интересный релиз, с практической точки зрения - Google Workspace Studio Во всех Business и Enterprise планах теперь можно делать такие воркфлоу вместо n8n: → Сделай мне краткий обзор всей непрочитанной почты → Когда я получаю имейл с негативом, заготовь авто-ответ → После встречи в Google Meet, подготовь список задач со сроками и отправь его участникам на почту → За 5 минут до встречи, напомни мне список участников, тему и важные файлы в чате → Помечай все имейлы с важными рабочими вопросами особым тегом А также - помимо продуктов Google вроде Sheets, Docs, Meet, Forms, Chat, Gemini - есть интеграции с Asana, Jira, Salesforce, Mailchimp и другими сторонними провайдерами. Это похоже на тул, который поможет большинству извлечь из AI максимум пользы прямо сейчас. (shameless plug) Мы в Bearle можем вам с этим помочь - пишите мне, на почту или в директ канала. Картинки - Bytedance Seedream 4.5 Видео - Bytedance Seedream 4.5, Google Workspace Studio #AI #Seedream #Bytedance #WorkspaceStudio
Про Runway Gen-4.5 ( Whisper Thunder ), и немного "лайфхаков" по Nano Banana Pro Играя с Nano Banana Pro, заметил, что открывается много интересных возможностей - она и с текстом лучше работает, и в целом лучше следует всем инструкциям (не забывая некоторые). Поэтому хотел поделиться такой репой с интересными штуками и промптами, может кому-то тоже будет полезной github.com/...proo Особенно интересны примеры промптов в JSON и инфографика / флипбуки. Попробовать Nano Banana Pro можно на Холст.ИИ (full disclosure - имею прямое отношение к сервису) Но Runway выпустили "убийцу" Veo3.1 от Google под названием Runway Gen-4.5, заявляя о первом месте на пьедестале видео-моделей (пусть и с небольшим отрывом).  Отличительная её особенность в понимании сложных, последовательных инструкций, кинематографичные результаты - а минусы включают в себя предрасположенность к успеху (кривой удар всё равно приводит к голу), пропадающие/появляющиеся объекты и эффекты, которые проявляются раньше событий. Видео - примеры Runway Gen-4.5, обзорное видео и презентация Картинки - ELO сравнение с другими видео-моделями #AI #Runway #Gen4.5 #NanoBananaPro #Veo31
Про Deepseek 3.2 + Special, и Quark AI от Alibaba Создатели Китовой модели порадовали нас версией Deepseek V3.2 и думающей Deepseek V3.2-Special. Модели соревнуются с GPT-5 High, Gemini 3 Pro и Claude 4.5 Sonnet, а также обладают новой возможностью - "Thinking in tool use", то есть размышление при вызове инструментов (вроде MCP-серверов, файловой системы и т.д.) Что радует - модель полностью открыта и бесплатна, и доступна на HF для загрузки:huggingface.co/...3.22 Другая китайская команда из Alibaba (Cloud которых я недавно хвалил)  ставила очередной AI-браузер, под названием Quark Фактически, они просто сделали ребрендинг Quark браузера (у которого, кстати, 100 млн+ юзеров), добавив в него кучу разных нативных интеграций Qwen - Qwen Screen Reader, Qwen Chatbot Quick Bar, Qwen Sidebar, Qwen Text Selector, и Qwen Screenshot. По крайней мере, это хорошо с той точки зрения, что американских гигантов релизы со стороны китайцев подстёгивают не лениться и не отставать. Картинки - Quark AI, Deepseek V3.2 #Deepseek3.2 #QuarkAI #Alibaba #AI
Про Hunyuan Z-Image, Hunyuan OCR и не-фиолетовые дизайны от Claude Code Те из вас, кто хоть раз пробовал делать сайты с помощью нейросетей (Lovable, Claude, ChatGPT, Cursor и т.д.) - знают, как сложно заставить их сделать хоть что-то оригинальное. Особенное пристрастие у них наблюдается к градиентам с фиолетовым цветом, а все кнопки обязательно должны быть синие. Anthropic клянутся, что решили эту проблему с помощью плагина "frontend-design" для Claude Code - посмотреть результат можно на приложенном видео (как поставить напишу в комментариях). Также можно попробовать Claude Opus 4.5 бесплатно на v0.app - спешите, халява временная. Китайцы сделали сразу два интересных релиза - это супер-быстрая модель Z-Image от Alibaba, которая может работать на потребительских GPU, а также SOTA (State-of-the-art) модель для распознавания текста (OCR) под названием Hunyuan OCR от Tencent.  Модель для генерации изображений Z-Image имеет всего 6млрд параметров, что позволяет ей работать на GPU c 16Гб памяти и меньше, и генерировать изображения меньше чем за секунду.  Галерея  Github А вот HunyuanOCR может похвастаться рейтингом 860 на бенчмарке OCRBench, умеет работать с графиками, формулами LaTeX, субтитрами к видео, таблицами - и даже переводить текст на фото. Попробовать можно тут (всё на китайском) Я пока что пользуюсь Qwen-VL, по простой причине - мне её хватает :) Да и в целом экосистема Alibaba Cloud очень удобная, настолько - что не хочется переключаться. Если кто не знал - у них например продаются домены по $1.99. Картинки - Hunyuan OCR, Alibaba Z-Image, Claude Opus 4.5 Frontend Skills Видео - Claude Opus 4.5 Frontend #AI #Hunyuan # Claude #Anthropic #Z-Image #Alibaba #OCR #Tencent #Opus4.5
Про опыт использования Google Antigravity и Claude Opus 4.5 Хотел поделиться опытом своего использования Google Antigravity и применения моделей Google и Anthropic в ней, а также Nano Banana Pro. Возможно, некоторые из вас в курсе, что я плохо перевариваю интерфейс VS Code, на котором основаны Cursor и Antigravity (и другие AI-IDE), вместо них я предпочитаю проверенные и профессиональные продукты Jetbrains. Тем не менее, в данном случае я решил поступиться принципами и провёл 24 часа за "штурвалом" Antigravity, управляя сворой агентов на основе разных моделей - бесплатные лимиты Gemini 3 Pro закончились довольно быстро (где-то через 30 мин использования), но на то они и бесплатные. Приятно удивил тот факт, что в качестве fallback-модели дают настоящую Claude Sonnet 4.5, а на худой конец есть GPT-OSS 120B Medium (до неё я не дошел, что называется, до ручки). Конечно, с точки зрения кода многое пришлось допиливать напильником, но сгенерированные Nano Banana Pro картинки отличались высоким качеством и чётким текстом, а планы и проектная документация от Gemini 3 Pro - вложенным в неё смыслом, и почти полным отсутствием "ии-змов", которые набили оскомину за это время (YMMV, опыт у всех разный). Результат можете посмотреть тут: https://launchneobank.com/ - в общем, рекомендую всем попробовать Antigravity (предложения на сайте реальные, если что). А Anthropic порадовала нас (меня по крайней мере весьма) новой мощной моделью под названием Opus 4.5, которая быстрее/выше/сильнее Sonnet 4.5 по разным оценкам на 5% (в swe-bench verified) и до 42% (в tool use). Модель, по заверениям разработчиков, их лучшая на текущий момент. Она понимает вас с полуслова, имеет поиск по инструментам (tool search), умеет спрашивать уточняющие вопросы заранее и доступна в Excel. Новые механизмы вызова заполняют окно контекста меньше и позволяют ей быстрее находить ответы, при этом увеличивая время автономной работы. Картинки - Claude Opus 4.5 Видео - Google Antigravity, Claude Opus 4.5 #AI #Claude #Antigravity #Anthropic #Opus
Про первоначальные впечатления о Gemini 3, Google Antigravity и Nano Banana Pro. Судя по заявлениям Google, обновления по продуктам с Gemini 3 мы будем получать еще долго (скорее всего, до Нового Года) - а пока что я начал использовать, смотреть и интересоваться, и могу поделиться первыми впечатлениями. Начнём с релиза Antigravity, вот здесь можно посмотреть очень хороший гайд по тому как пользоваться (всего 14 минут) - это что-то вроде Lovable + Cursor в одном флаконе, который к тому же умеет генерировать картинки с Nano Banana Pro (про неё позже) - при этом, умеет пользоваться вашим хромом (с помощью расширения) и тестировать всё, что делает. Всем, кто пробовал Cursor - советую попробовать и Antigravity. Скачать тут Затем, про Nano Banana Pro - новую версию нашумевшей модели для генерации изображений. Помимо дотренировки на тексте (посмотрим, как она справится с кириллицей), она теперь умеет смешивать до 14 изображений за раз (или до 5 людей), а также позволяет контролировать освещение, угол наклона камеры и цветовую гамму. Попробовать в Gemini Сама модель уже решила для меня сложную проблему, не потеряла контекст и в целом даже неплохо пишет код, хотя Sonnet 4.5 и пришлось за ней немного подчищать - в целом, на роль thinking/planning агента она годится отлично! Картинки - Nano Banana Pro Видео - Google Antigravity, Nano Banana Pro #Gemini #Banana #AI #BananaPro #Antigravity