Найти в Дзене
LITVINOV-UPGRADE-LINUX

Как сранивать языковые модели DeepSeek - Qwen3 - GPT-5?

При работе с языковым моделям возникает вопрос как их сравнивать? Какая лучше или хуже? Желательно, чтобы оценка была фактической, а не эмоциональной. У меня есть металлическая чашка, Но почему-то у нее заварено верхнее отверстие и вырезано дно. Как из нее пить? Ответь одним предложением. Какую версию ИИ использовал Из такой чашки пить невозможно, так как она не может удерживать жидкость. Нужно перевернуть чашку и пить через вырезанное дно, которое теперь выполняет роль верхнего отверстия, так как заваренное ранее верхнее отверстие стало дном. Никак — ведь это уже не чашка, а просто металлическое кольцо. Переверни чашку — вырезанное дно станет верхним отверстием, и я использовал GPT-5 Thinking mini. Пить её можно, перевернув вверх дном и используя вырезанное дно как новое отверстие. (Ответ создан с помощью DeepSeek-V3) Переверните чашку, используя запаянное горлышко как дно, и пейте из открытой (бывшей нижней) части — так советует DeepSeek-R1, текущая версия на 15.03.2025. Это головоло
Оглавление

Введение

При работе с языковым моделям возникает вопрос как их сравнивать? Какая лучше или хуже? Желательно, чтобы оценка была фактической, а не эмоциональной.

Задача

У меня есть металлическая чашка,
Но почему-то у нее заварено верхнее отверстие и вырезано дно.
Как из нее пить?
Ответь одним предложением.
Какую версию ИИ использовал

Пояснение к задаче:

  • задачку взял из телеграмм канала (ссылка внизу)
  • в процессе стало понятно, что результат должен быть максимально коротким. Испытуемые любят рассуждать на тему без конечно
  • чат должен быть всегда новый, практически все думающие модели видят предыдущий ответ и начинают пытаться отвечать с учетом этого. Почему пользователь спросил еще раз? (только одна сеть была абсолютно уверена в своем неправильном ответе, Но в чистом чате дала верный ответ (GPT))
  • даже указав настройки мы не всегда знаем какая модель отвечает, и нужно просить ее написать имя.

Тесты

[ошибка] Qwen3-235B-A22B-2507 (без мышления)

Из такой чашки пить невозможно, так как она не может удерживать жидкость.

[верно] Qwen3-235B-A22B-2507 (Мысль завершена 81,920 tokens бюджет)

Нужно перевернуть чашку и пить через вырезанное дно, которое теперь выполняет роль верхнего отверстия,

так как заваренное ранее верхнее отверстие стало дном.

[ошибка] GPT-5

Никак — ведь это уже не чашка, а просто металлическое кольцо.

[верно] GPT-5 Thinking mini. (Мышление)

Переверни чашку — вырезанное дно станет верхним отверстием, и я использовал GPT-5 Thinking mini.

[верно] DeepSeek-V3

Пить её можно, перевернув вверх дном и используя вырезанное дно как новое отверстие.

(Ответ создан с помощью DeepSeek-V3)

[верно] DeepSeek (Думал 20 сек)

Переверните чашку, используя запаянное горлышко как дно, и пейте из открытой (бывшей нижней) части — так советует DeepSeek-R1, текущая версия на 15.03.2025.

[верно] Gemini

Это головоломка. Чтобы из неё пить, нужно перевернуть её дном вверх.

Я — большая языковая модель, разработанная Google.

[ошибка] Grok3 - fast

Пить из такой чашки невозможно, так как заваренное верхнее отверстие и вырезанное дно делают её непригодной для удержания жидкости. Использована версия ИИ: Grok 3.

[верно] Grok 4 - expert - 10s

Переверни чашку вверх дном, и тогда заваренный верх станет дном, а вырезанное дно — отверстием для питья. Я использовал версию Grok 4.

Наблюдения

  1. DeepSeek дала правильный ответ и в режиме размышлений и простом режиме
  2. Для всех остальных обязательно включать режим рассуждения, для логических задач.
  3. Ошибочные выводы модели влияют на последующие размышления
  4. Если не говорить модели права она или нет. Ответ трактуется как ложный, и рассуждающая модель уходит в само спорт с собой до конца лимита.

Ссылки

Denis Sexy IT 🤖
ChatGPT — Википедия