Как две новейшие LLM‑модели справляются c задачами, в которых решает не логика, а воображение?
Введение
Современные LLM‑модели уже научились безошибочно пересказывать «Войну и мир» и решать уравнения. Следующая планка — оригинальный творческий контент: написание историй, генерация идей, разработка концепций. Мы сравнили Claude 3 (Anthropic, релиз март 2025) и Gemini 1.5 Ultra (Google, релиз апрель 2025) — две самые «свежие» модели с публичным доступом API.
Зачем оценивать креативность у ИИ
- Бизнес‑применение. Копирайтинг, сценарное планирование, продуктовые брейнштормы.
- R&D. Генерация «дикой гипотезы», которую далее проверяет человек.
- Образование и досуг. Интерактивные игры, творческие задания, обучение письму.
Расходы растут, поэтому важно понять, кто даёт «больше креатива за доллар».
Краткий профиль участников
Claude 3 (Opus):
- Контекстное окно: 200k токенов
- Дата анонса: март 2025
- Нативный код‑интерпретатор: Да
- Цена (июнь 2025, 1k in/out): $0.015 / $0.075
- Safety‑фильтр: двухступенчатый
- Доступ к мультимодальности: текст+изображ.
Gemini 1.5 Ultra:
- Контекстное окно: 1М токенов;
- Дата анонса: апрель 2025
- Нативный код‑интерпретатор: Да
- Цена (июнь 2025, 1k in/out): $0.012 / $0.060
- Safety‑фильтр: многоуровневый
- Доступ к мультимодальности: текст+изображ.+аудио
Методика тестирования
Задачи
- Фантастический рассказ (Жизнь на Марсе через 100 лет, ≤800 слов).
- 5 оригинальных бизнес‑идей для микропредпринимателя.
- Концепция социальной сети с уникальной фичей, краткая презентация(≤300 слов).
Критерии оценки (шкала 1‑10)
Критерий | Объяснение
Оригинальность | Насколько идея/сюжет нетривиальна.
Глубина | Детализированность и продуманность мира/механики.
Практичность | Возможность воплощения (для идей/продуктов).
Эмоц. отклик | Вызывает ли текст сочувствие, удивление, «вау‑эффект».
Процесс. Результаты каждой модели анонимизировались. Оценку ставили три независимых эксперта (копирайтер, продукт‑менеджер, UX‑исследователь); финальный балл — среднее арифметическое.
Сводная таблица результатов
Критерий \ Модель Claude 3 Gemini
Оригинальность 8.7 8.0
Глубина 9.2 8.4
Практичность 7.8 9.1
Эмоциональный отклик 9.0 7.2
Средний итог 8.7 8.2
Иллюстрации ответов и наблюдения
1. Фантастический рассказ
Фрагмент Claude 3 (355 симв.):
…Когда марсианский закат окрасил купола города Аманти в цвета запекшейся глины, Аиша открыла портативный гербарий — единственный на планете. Из-под стекла пахнуло влажной Землей, и тысячи колонистов на центральной площади впервые за десятилетие почувствовали ностальгию…
Фрагмент Gemini (326 симв.):
…Группа подростков запускала в небо дроны‑стрингеры, плетущие сети для сбора редкой марсианской росы. Они спорили о последнем апгрейде квантового мессенджера, пока радиолокационные паруса ловили ионы из ионосферы, питая энергией весь купол…
Наблюдения: Gemini богаче в технологических деталях, Claude 3 — в эмоциональной составляющей.
2. Бизнес‑идеи (по 2 из 5)
Claude 3
«Виртуальное агентство персонального вдохновения» — подписка, где ИИ‑аватары пишут мотивационные письма, основанные на данных фитнес‑трекеров.
«AR‑фитнес‑клуб дома» — аренда комплекта датчиков + приложение с дополненной реальностью, создающее «голографического» тренера.
Gemini
«Кофейня с 3D‑печатью десертов» — посетитель проектирует пирожное в приложении, робот‑кондитер печатает заказ.
«Доставка книг с ИИ‑рекомендацией» — подписка: книга + персональное эссе‑разбор от модели.
3. Концепт социальной сети
Claude 3: «Эмо‑карта» мира, где пост — это геотег + эмоция; алгоритм строит «эмоциональную погоду» города.
Gemini: Профайлер на основе LLM, который динамически подстраивает формат общения (текст, аудио, мемы) под стиль собеседника.
Плюсы и минусы
Claude 3 (Opus)
Плюсы
- Самые глубокие и эмоциональные сюжеты.
- Читабельный стиль «из коробки», меньше редакции.
- Безопасный режим реже «заламывает» творческий ответ.
Минусы
- Практичность идей ниже: иногда слишком «воздушно».
- Цена инференса выше Gemini примерно на 20 %.
- Контекст 200 k токенов пока реже нужен, чем 1 М у Gemini, но все‑таки меньше.
Gemini 1.5 Ultra
Плюсы
- Техническая детализация и реализуемость концептов.
- Огромное окно контекста (1 М) — удобно для массивов данных.
- 15–25 % дешевле при равном объёме вывода.
Минусы
- Эмоциональная плоскость слабее — стиль более «докладной».
- Safety‑фильтр порой занижает креативность («извините, не могу помочь»).
- В текущем релизе чуть выше latency (>15 % при той же длине ответа).
Стоимость, ограничения, UX
- Inference‑цена: см. таблицу выше. При создании 1 М токенов текста Claude 3 дороже ~$90.
- API‑лимиты: у Anthropic 80 запросов/мин на организацию, у Google — 250, но в среднем спид‑лимит схож.
- UX‑SDK: у Gemini доступна нативная мультимодальность аудио / видео; у Claude — пока бета.
Выводы и рекомендации
Нужен эмоциональный «вау» или литературно‑художественный текст — берите Claude 3.
Нужна приземлённая идея, технико‑экономическая справка, длинный контекст — Gemini выиграет.
Обе модели уверенно прошли «тест на креативность», набрав >8 баллов, но сфокусированы на разных осях ценности.
FAQ
Q: Можно ли объединить сильные стороны?
A: Да. Например, генерируйте «сырой» тех‑план в Gemini, а попросите Claude 3 сделать литературную редактуру.
Q: А как у них с кодом?
A: На коротких алгоритмических задачах паритет; в длинных проектах преимущества большого контекста Gemini заметны.
Q: Какой текст подходит для видео‑контента?
A: Claude 3 выдаёт более «кинематографичный» синопсис, удобный для режиссёрской раскадровки.