11 подписчиков

Claude 3 vs. Gemini: тест на креативность

30 июня 202530 июн 2025

4 мин

Как две новейшие LLM‑модели справляются c задачами, в которых решает не логика, а воображение? Современные LLM‑модели уже научились безошибочно пересказывать «Войну и мир» и решать уравнения. Следующая планка — оригинальный творческий контент: написание историй, генерация идей, разработка концепций. Мы сравнили Claude 3 (Anthropic, релиз март 2025) и Gemini 1.5 Ultra (Google, релиз апрель 2025) — две самые «свежие» модели с публичным доступом API. Расходы растут, поэтому важно понять, кто даёт «больше креатива за доллар». Claude 3 (Opus): Gemini 1.5 Ultra: Критерий | Объяснение Оригинальность | Насколько идея/сюжет нетривиальна. Глубина | Детализированность и продуманность мира/механики. Практичность | Возможность воплощения (для идей/продуктов). Эмоц. отклик | Вызывает ли текст сочувствие, удивление, «вау‑эффект». Процесс. Результаты каждой модели анонимизировались. Оценку ставили три независимых эксперта (к

Оглавление

Введение
Зачем оценивать креативность у ИИ
Краткий профиль участников

Как две новейшие LLM‑модели справляются c задачами, в которых решает не логика, а воображение?

Введение

Современные LLM‑модели уже научились безошибочно пересказывать «Войну и мир» и решать уравнения. Следующая планка — оригинальный творческий контент: написание историй, генерация идей, разработка концепций. Мы сравнили Claude 3 (Anthropic, релиз март 2025) и Gemini 1.5 Ultra (Google, релиз апрель 2025) — две самые «свежие» модели с публичным доступом API.

Зачем оценивать креативность у ИИ

Бизнес‑применение. Копирайтинг, сценарное планирование, продуктовые брейнштормы.
R&D. Генерация «дикой гипотезы», которую далее проверяет человек.
Образование и досуг. Интерактивные игры, творческие задания, обучение письму.

Расходы растут, поэтому важно понять, кто даёт «больше креатива за доллар».

Краткий профиль участников

Claude 3 (Opus):

Контекстное окно: 200k токенов
Дата анонса: март 2025
Нативный код‑интерпретатор: Да
Цена (июнь 2025, 1k in/out): $0.015 / $0.075
Safety‑фильтр: двухступенчатый
Доступ к мультимодальности: текст+изображ.

Gemini 1.5 Ultra:

Контекстное окно: 1М токенов;
Дата анонса: апрель 2025
Нативный код‑интерпретатор: Да
Цена (июнь 2025, 1k in/out): $0.012 / $0.060
Safety‑фильтр: многоуровневый
Доступ к мультимодальности: текст+изображ.+аудио

Методика тестирования

Задачи

Фантастический рассказ (Жизнь на Марсе через 100 лет, ≤800 слов).
5 оригинальных бизнес‑идей для микропредпринимателя.
Концепция социальной сети с уникальной фичей, краткая презентация(≤300 слов).

Критерии оценки (шкала 1‑10)

Критерий | Объяснение

Оригинальность | Насколько идея/сюжет нетривиальна.

Глубина | Детализированность и продуманность мира/механики.

Практичность | Возможность воплощения (для идей/продуктов).

Эмоц. отклик | Вызывает ли текст сочувствие, удивление, «вау‑эффект».

Процесс. Результаты каждой модели анонимизировались. Оценку ставили три независимых эксперта (копирайтер, продукт‑менеджер, UX‑исследователь); финальный балл — среднее арифметическое.

Сводная таблица результатов

Критерий \ Модель Claude 3 Gemini

Оригинальность 8.7 8.0

Глубина 9.2 8.4

Практичность 7.8 9.1

Эмоциональный отклик 9.0 7.2

Средний итог 8.7 8.2

Иллюстрации ответов и наблюдения

1. Фантастический рассказ

Фрагмент Claude 3 (355 симв.):

…Когда марсианский закат окрасил купола города Аманти в цвета запекшейся глины, Аиша открыла портативный гербарий — единственный на планете. Из-под стекла пахнуло влажной Землей, и тысячи колонистов на центральной площади впервые за десятилетие почувствовали ностальгию…

Фрагмент Gemini (326 симв.):

…Группа подростков запускала в небо дроны‑стрингеры, плетущие сети для сбора редкой марсианской росы. Они спорили о последнем апгрейде квантового мессенджера, пока радиолокационные паруса ловили ионы из ионосферы, питая энергией весь купол…

Наблюдения: Gemini богаче в технологических деталях, Claude 3 — в эмоциональной составляющей.

2. Бизнес‑идеи (по 2 из 5)

Claude 3
«Виртуальное агентство персонального вдохновения» — подписка, где ИИ‑аватары пишут мотивационные письма, основанные на данных фитнес‑трекеров.
«AR‑фитнес‑клуб дома» — аренда комплекта датчиков + приложение с дополненной реальностью, создающее «голографического» тренера.

Gemini
«Кофейня с 3D‑печатью десертов» — посетитель проектирует пирожное в приложении, робот‑кондитер печатает заказ.
«Доставка книг с ИИ‑рекомендацией» — подписка: книга + персональное эссе‑разбор от модели.

3. Концепт социальной сети

Claude 3: «Эмо‑карта» мира, где пост — это геотег + эмоция; алгоритм строит «эмоциональную погоду» города.
Gemini: Профайлер на основе LLM, который динамически подстраивает формат общения (текст, аудио, мемы) под стиль собеседника.

Плюсы и минусы

Claude 3 (Opus)

Плюсы

Самые глубокие и эмоциональные сюжеты.
Читабельный стиль «из коробки», меньше редакции.
Безопасный режим реже «заламывает» творческий ответ.

Минусы

Практичность идей ниже: иногда слишком «воздушно».
Цена инференса выше Gemini примерно на 20 %.
Контекст 200 k токенов пока реже нужен, чем 1 М у Gemini, но все‑таки меньше.

Gemini 1.5 Ultra

Плюсы

Техническая детализация и реализуемость концептов.
Огромное окно контекста (1 М) — удобно для массивов данных.
15–25 % дешевле при равном объёме вывода.

Минусы

Эмоциональная плоскость слабее — стиль более «докладной».
Safety‑фильтр порой занижает креативность («извините, не могу помочь»).
В текущем релизе чуть выше latency (>15 % при той же длине ответа).

Стоимость, ограничения, UX

Inference‑цена: см. таблицу выше. При создании 1 М токенов текста Claude 3 дороже ~$90.
API‑лимиты: у Anthropic 80 запросов/мин на организацию, у Google — 250, но в среднем спид‑лимит схож.
UX‑SDK: у Gemini доступна нативная мультимодальность аудио / видео; у Claude — пока бета.

Выводы и рекомендации

Нужен эмоциональный «вау» или литературно‑художественный текст — берите Claude 3.
Нужна приземлённая идея, технико‑экономическая справка, длинный контекст — Gemini выиграет.
Обе модели уверенно прошли «тест на креативность», набрав >8 баллов, но сфокусированы на разных осях ценности.

FAQ

Q: Можно ли объединить сильные стороны?
A: Да. Например, генерируйте «сырой» тех‑план в Gemini, а попросите Claude 3 сделать литературную редактуру.

Q: А как у них с кодом?
A: На коротких алгоритмических задачах паритет; в длинных проектах преимущества большого контекста Gemini заметны.

Q: Какой текст подходит для видео‑контента?
A: Claude 3 выдаёт более «кинематографичный» синопсис, удобный для режиссёрской раскадровки.