1781 подписчик

Nano Banana 2 приготовила козырь в рукаве

27 февраля27 фев

3 мин

Рендеринг точного текста долгое время был проблемой для генераторов ИИ, но движок Google Nano Banana 2, доступный в приложении Gemini, демонстрирует впечатляющую точность. Он поддерживает разрешение до 4K и использует веб-поиск для актуальной информации. — pcworld.com Отображение точного текста долгое время было камнем преткновения даже для самых передовых генераторов изображений на базе ИИ, но это одна из сильнейших сторон недавно обновленного движка Google Nano Banana 2. Доступный сейчас в приложении Gemini (вы также найдете его в Google Поиске, AI Studio и других продуктах Google), Nano Banana 2 может похвастаться рядом новых функций, включая разрешение до 2K с возможностью масштабирования до 4K, «улучшенное» следование инструкциям, которое помогает модели лучше придерживаться ваших запросов, и способность опираться на «реальные» знания Gemini, позволяя ей получать информацию в реальном времени через веб-поиск при рендеринге изображений. Неплохо, но еще более впечатляющей является т

Отображение точного текста долгое время было камнем преткновения даже для самых передовых генераторов изображений на базе ИИ, но это одна из сильнейших сторон недавно обновленного движка Google Nano Banana 2.

Доступный сейчас в приложении Gemini (вы также найдете его в Google Поиске, AI Studio и других продуктах Google), Nano Banana 2 может похвастаться рядом новых функций, включая разрешение до 2K с возможностью масштабирования до 4K, «улучшенное» следование инструкциям, которое помогает модели лучше придерживаться ваших запросов, и способность опираться на «реальные» знания Gemini, позволяя ей получать информацию в реальном времени через веб-поиск при рендеринге изображений.

Неплохо, но еще более впечатляющей является точность передачи текста в Nano Banana 2. Я просил Nano Banana 2 создавать изображения с рекламными щитами, вывесками, газетами и другими объектами с внедренным текстом, и он справлялся блестяще, в значительной степени избегая бессмыслицы, которую обычно генерировали ранние ИИ-генераторы изображений при попытке отобразить буквы и слова.

Например, я запросил у Nano Banana 2 изображение робота, курящего сигарету на Таймс-сквер, с неоновой вывеской «Nano Banana 2 on Broadway» на заднем плане. Без проблем, и он отрендерил изображение (выше) примерно за 10 секунд.

Затем я попросил Nano Banana 2 создать фотографию женщины, читающей газету в уголке для завтрака, с заголовком газеты «Nano Banana 2 makes its debut» («Nano Banana 2 дебютирует»). Но для этого теста я усложнил задачу: я попросил движок написать подзаголовок и саму статью, указав, что история должна быть конкретно о Nano Banana 2.

Google

Что ж, модель правильно уловила подзаголовок, но что еще лучше, она написала статью — по крайней мере, до определенного момента. Текст статьи немного витиеватый, но его почти можно прочитать.

Затем я немного надавил на Nano Banana 2, попросив его увеличить масштаб статьи и улучшить текст.

Google

Здесь рендеринг текста немного дал сбой: в статье читается: «Google has unveiled its latest akthrough [sic] in generative AI, the ‘Nano Banana 2’, promising a major leap [слово «leap» частично закрыто пальцем] in image generation fidelity» («Google представила свой последний прорыв в генеративном ИИ, ‘Nano Banana 2’, обещая крупный скачок в точности генерации изображений»). Неплохо, но по мере чтения точность текста начинает портиться.

Наконец, я попробовал попросить Nano Banana 2 нарисовать схему — самого себя. «Отобрази схему архитектуры nano banana 2 в рамках общей структуры Gemini, с текстовыми подписями», — запросил я, и примерно через 15 секунд получил это:

Google

Внимательно изучив схему, я не увидел никакого текстового бреда, а схема и подписи казались осмысленными, или, по крайней мере, так показалось моему нетренированному глазу.

Загрузив схему в приложение Gemini, версия Gemini с функцией «мышления» заверила меня, что это «замечательно точная архитектурная карта» общей структуры Gemini, точно изображающая, как новая модель может обрабатывать до пяти последовательных персонажей в рабочем процессе создания изображений. Она также правильно упомянула совершенно новый GemPix 2 Diffusion Renderer — компонент Nano Banana 2, который берет нативные 2K-изображения движка и масштабирует их до 4K.

В целом, очень впечатляет, хотя Nano Banana 2 также ставит вопрос о том, когда OpenAI ответит продолжением прошлогоднего GPT Image 1.5. Это может произойти в любой день, если не сегодня.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Ben Patterson

Оригинал статьи