Найти в Дзене
GPT prompt

Claude 3 vs. Gemini: тест на креативность

Как две новейшие LLM‑модели справляются c задачами, в которых решает не логика, а воображение? Современные LLM‑модели уже научились безошибочно пересказывать «Войну и мир» и решать уравнения. Следующая планка — оригинальный творческий контент: написание историй, генерация идей, разработка концепций. Мы сравнили Claude 3 (Anthropic, релиз март 2025) и Gemini 1.5 Ultra (Google, релиз апрель 2025) — две самые «свежие» модели с публичным доступом API. Расходы растут, поэтому важно понять, кто даёт «больше креатива за доллар». Claude 3 (Opus): Gemini 1.5 Ultra: Критерий | Объяснение Оригинальность | Насколько идея/сюжет нетривиальна. Глубина | Детализированность и продуманность мира/механики. Практичность | Возможность воплощения (для идей/продуктов). Эмоц. отклик | Вызывает ли текст сочувствие, удивление, «вау‑эффект». Процесс. Результаты каждой модели анонимизировались. Оценку ставили три независимых эксперта (к
Оглавление

Как две новейшие LLM‑модели справляются c задачами, в которых решает не логика, а воображение?

Введение

Современные LLM‑модели уже научились безошибочно пересказывать «Войну и мир» и решать уравнения. Следующая планка — оригинальный творческий контент: написание историй, генерация идей, разработка концепций. Мы сравнили Claude 3 (Anthropic, релиз март 2025) и Gemini 1.5 Ultra (Google, релиз апрель 2025) — две самые «свежие» модели с публичным доступом API.

Зачем оценивать креативность у ИИ

  • Бизнес‑применение. Копирайтинг, сценарное планирование, продуктовые брейнштормы.
  • R&D. Генерация «дикой гипотезы», которую далее проверяет человек.
  • Образование и досуг. Интерактивные игры, творческие задания, обучение письму.

Расходы растут, поэтому важно понять, кто даёт «больше креатива за доллар».

Краткий профиль участников

Claude 3 (Opus):

  1. Контекстное окно: 200k токенов
  2. Дата анонса: март 2025
  3. Нативный код‑интерпретатор: Да
  4. Цена (июнь 2025, 1k in/out): $0.015 / $0.075
  5. Safety‑фильтр: двухступенчатый
  6. Доступ к мультимодальности: текст+изображ.

Gemini 1.5 Ultra:

  1. Контекстное окно: 1М токенов;
  2. Дата анонса: апрель 2025
  3. Нативный код‑интерпретатор: Да
  4. Цена (июнь 2025, 1k in/out): $0.012 / $0.060
  5. Safety‑фильтр: многоуровневый
  6. Доступ к мультимодальности: текст+изображ.+аудио

Методика тестирования

Задачи

  1. Фантастический рассказ (Жизнь на Марсе через 100 лет, ≤800 слов).
  2. 5 оригинальных бизнес‑идей для микропредпринимателя.
  3. Концепция социальной сети с уникальной фичей, краткая презентация(≤300 слов).

Критерии оценки (шкала 1‑10)

Критерий | Объяснение

Оригинальность | Насколько идея/сюжет нетривиальна.

Глубина | Детализированность и продуманность мира/механики.

Практичность | Возможность воплощения (для идей/продуктов).

Эмоц. отклик | Вызывает ли текст сочувствие, удивление, «вау‑эффект».

Процесс. Результаты каждой модели анонимизировались. Оценку ставили три независимых эксперта (копирайтер, продукт‑менеджер, UX‑исследователь); финальный балл — среднее арифметическое.

Сводная таблица результатов

Критерий \ Модель Claude 3 Gemini

Оригинальность 8.7 8.0

Глубина 9.2 8.4

Практичность 7.8 9.1

Эмоциональный отклик 9.0 7.2

Средний итог 8.7 8.2

Иллюстрации ответов и наблюдения

1. Фантастический рассказ

Фрагмент Claude 3 (355 симв.):

…Когда марсианский закат окрасил купола города Аманти в цвета запекшейся глины, Аиша открыла портативный гербарий — единственный на планете. Из-под стекла пахнуло влажной Землей, и тысячи колонистов на центральной площади впервые за десятилетие почувствовали ностальгию…

Фрагмент Gemini (326 симв.):

…Группа подростков запускала в небо дроны‑стрингеры, плетущие сети для сбора редкой марсианской росы. Они спорили о последнем апгрейде квантового мессенджера, пока радиолокационные паруса ловили ионы из ионосферы, питая энергией весь купол…

Наблюдения: Gemini богаче в технологических деталях, Claude 3 — в эмоциональной составляющей.

2. Бизнес‑идеи (по 2 из 5)

Claude 3
«Виртуальное агентство персонального вдохновения» — подписка, где ИИ‑аватары пишут мотивационные письма, основанные на данных фитнес‑трекеров.
«AR‑фитнес‑клуб дома» — аренда комплекта датчиков + приложение с дополненной реальностью, создающее «голографического» тренера.
Gemini
«Кофейня с 3D‑печатью десертов» — посетитель проектирует пирожное в приложении, робот‑кондитер печатает заказ.
«Доставка книг с ИИ‑рекомендацией» — подписка: книга + персональное эссе‑разбор от модели.

3. Концепт социальной сети

Claude 3: «Эмо‑карта» мира, где пост — это геотег + эмоция; алгоритм строит «эмоциональную погоду» города.
Gemini: Профайлер на основе LLM, который динамически подстраивает формат общения (текст, аудио, мемы) под стиль собеседника.

Плюсы и минусы

Claude 3 (Opus)

Плюсы

  • Самые глубокие и эмоциональные сюжеты.
  • Читабельный стиль «из коробки», меньше редакции.
  • Безопасный режим реже «заламывает» творческий ответ.

Минусы

  • Практичность идей ниже: иногда слишком «воздушно».
  • Цена инференса выше Gemini примерно на 20 %.
  • Контекст 200 k токенов пока реже нужен, чем 1 М у Gemini, но все‑таки меньше.

Gemini 1.5 Ultra

Плюсы

  • Техническая детализация и реализуемость концептов.
  • Огромное окно контекста (1 М) — удобно для массивов данных.
  • 15–25 % дешевле при равном объёме вывода.

Минусы

  • Эмоциональная плоскость слабее — стиль более «докладной».
  • Safety‑фильтр порой занижает креативность («извините, не могу помочь»).
  • В текущем релизе чуть выше latency (>15 % при той же длине ответа).

Стоимость, ограничения, UX

  • Inference‑цена: см. таблицу выше. При создании 1 М токенов текста Claude 3 дороже ~$90.
  • API‑лимиты: у Anthropic 80 запросов/мин на организацию, у Google — 250, но в среднем спид‑лимит схож.
  • UX‑SDK: у Gemini доступна нативная мультимодальность аудио / видео; у Claude — пока бета.

Выводы и рекомендации

Нужен эмоциональный «вау» или литературно‑художественный текст — берите Claude 3.
Нужна приземлённая идея, технико‑экономическая справка, длинный контекст — Gemini выиграет.
Обе модели уверенно прошли «тест на креативность», набрав >8 баллов, но сфокусированы на разных осях ценности.

FAQ

Q: Можно ли объединить сильные стороны?
A: Да. Например, генерируйте «сырой» тех‑план в Gemini, а попросите Claude 3 сделать литературную редактуру.

Q: А как у них с кодом?
A: На коротких алгоритмических задачах паритет; в длинных проектах преимущества большого контекста Gemini заметны.

Q: Какой текст подходит для видео‑контента?
A: Claude 3 выдаёт более «кинематографичный» синопсис, удобный для режиссёрской раскадровки.