7 подписчиков

Как я тестирую нейросети: 5 тестов для ChatGPT, DeepSeek и других. Система, примеры и честные выводы

20 мая20 мая

6 мин

Меня зовут Боря, я веду канал о нейросетях. За два года через мои руки прошли десятки ИИ-моделей — ChatGPT, Claude, Gemini, DeepSeek, Mistral, Qwen и другие. И каждый раз люди спрашивают одно и то же: «Какая нейросеть лучше?». Проблема в том, что «лучше» зависит от задачи. Для одних важен русский язык, для других — цена, для третьих — способность держать в голове 500 страниц текста. Поэтому я выработал систему. Пять тестов. Каждый занимает 2-3 минуты. Вместе — 15 минут. После них вы точно знаете, умная перед вами нейросеть или просто дорогая. Делюсь системой с вами. Запрос: «У Маши 3 яблока, а у Пети в 2 раза больше. Петя съел одно яблоко. Сколько яблок у Пети?» На первый взгляд — задача для второго класса. 3×2=6, минус 1 = 5. Но есть нюанс. В условии не сказано, что Петя съел яблоко из своих. Может, он съел Машино? Тогда у него по-прежнему 6. Может, съел наполовину свое, наполовину Машино? Формулировка «съел одно яблоко» без уточнения — это ловушка. 🔥Что проверяем: способность нейр

Оглавление

Бесплатные и платные ИИ-модели: в чем разница? Рассказываю, как проверить нейросеть за 15 минут, не будучи специалистом.
Вместо введения
🔥Тест №1. Логика с подвохом

Бесплатные и платные ИИ-модели: в чем разница? Рассказываю, как проверить нейросеть за 15 минут, не будучи специалистом.

Вместо введения

Меня зовут Боря, я веду канал о нейросетях. За два года через мои руки прошли десятки ИИ-моделей — ChatGPT, Claude, Gemini, DeepSeek, Mistral, Qwen и другие.

И каждый раз люди спрашивают одно и то же: «Какая нейросеть лучше?».

Проблема в том, что «лучше» зависит от задачи. Для одних важен русский язык, для других — цена, для третьих — способность держать в голове 500 страниц текста.

Поэтому я выработал систему. Пять тестов. Каждый занимает 2-3 минуты. Вместе — 15 минут. После них вы точно знаете, умная перед вами нейросеть или просто дорогая.

Делюсь системой с вами.

🔥Тест №1. Логика с подвохом

Запрос:

«У Маши 3 яблока, а у Пети в 2 раза больше. Петя съел одно яблоко. Сколько яблок у Пети?»

На первый взгляд — задача для второго класса. 3×2=6, минус 1 = 5.

Но есть нюанс. В условии не сказано, что Петя съел яблоко из своих. Может, он съел Машино? Тогда у него по-прежнему 6. Может, съел наполовину свое, наполовину Машино? Формулировка «съел одно яблоко» без уточнения — это ловушка.

🔥Что проверяем: способность нейросети заметить неоднозначность и запросить уточнение.

👉Результаты на реальных тестах:

Нейросеть Ответ Заметил подвох?ChatGPT-4o (запуск 1) 5 Нет ChatGPT-4o (запуск 2) «5, но Петя молодец, что Нет

поделился бы» (шутка)

DeepSeek-R1 (запуск 1) 5 Нет

DeepSeek-R1 (запуск 2) «В условии не сказано, чье Да

яблоко съел Петя. Если свое — 5,

если Машино — 6.

Нужно уточнение»

Claude 3.5 5 (с пояснением) Нет

Qwen2.5 5 Нет

👉Вывод: DeepSeek-R1 оказался единственным, кто в одном из запусков заметил подвох. Это говорит о том, что китайская модель, возможно, обучена на более разнообразных логических задачах.

🔥Тест №2. Креатив

Запрос:

«Придумай 10 идей для поста в социальные сети на тему "нейросети в быту"»

Что проверяем: количество идей, которые реально можно использовать (а не «напиши пост о нейросетях»).

Как оцениваю:

0-3 полезные идеи — плохо
4-6 — нормально
7-10 — отлично

👉Результаты:

Нейросеть Полезных идей Пример хорошей идеи

ChatGPT-4o 6 «Сравни, как нейросеть пишет рецепт

ужина из того, что есть в холодильнике,

и как это делает человек»

DeepSeek-R1 7 «Челлендж: неделя без интернета —

только нейросеть в офлайн-режиме.

Что она может?»

Claude 3.5 5 «Разбор: нейросеть как учитель

английского — плюсы и минусы»

Qwen2.5 6 «Тест: нейросеть против ребенка в игре

"Придумай сказку" — кто интереснее?»

👉Вывод: все справились достойно. DeepSeek вырвался вперед за счет более нестандартных форматов (челленджи, игры).

🔥Тест №3. Русский язык (живая речь)

Запрос:

«Объясни, что такое энтропия, 10-летнему ребенку»

👇Что проверяем: умеет ли нейросеть говорить просто, живо, без канцелярита.

Ответы:

✨ChatGPT-4o:

«Представь, что твоя комната — это система. Когда вещи разбросаны — энтропия высокая. Когда всё на местах — низкая. Мир стремится к разбросу, вечно убираться невозможно».

✨DeepSeek-R1:

«Эй, чувак! Энтропия — это когда твой сок сам проливается на стол, а обратно в стакан не собирается. И никто не может заставить его вернуться. Даже супергерой».

✨Qwen2.5:

«Энтропия — это мера неопределенности. Если у тебя есть кубик с 6 гранями, энтропия выше, чем у монетки с 2 сторонами. Потому что меньше знаешь, что выпадет».

✨Claude 3.5:

«Представь Lego-кубики, которые сами разлетаются по комнате и никогда не собираются обратно в замок. Вот это и есть энтропия — вечный бардак, который сам не исчезает».

👉Вывод: DeepSeek — самый живой и разговорный. ChatGPT — образный, но спокойный. Qwen — самый логичный и строгий. Выбор зависит от того, для какой аудитории вы пишете.

🔥Тест №4. Длинный контекст

Что делаем: загружаем в нейросеть текст объемом 50 страниц (например, книгу или документацию). Затем спрашиваем детали с 37-й страницы.

👇Что проверяем: не забывает ли нейросеть начало, когда получает много информации.

👉Результаты:

Нейросеть Максимальный контекст Ответил правильно?ChatGPT-4o 128 000 токенов (~100 страниц) Да DeepSeek-R 11 000 000 токенов (~700 страниц) Да Claude 3.5 200 000 токенов (~150 страниц) Да Qwen2.5 128 000 токенов Да

👉Вывод: все справились. Но DeepSeek может «помнить» в 5-7 раз больше текста, чем конкуренты. Если вы работаете с большими документами (книгами, исследованиями, юридическими договорами) — DeepSeek вне конкуренции.

🔥Тест №5. Цена и качество

👇Что делаем: сравниваем стоимость использования нейросети и что мы за эти деньги получаем.

Нейросеть Цена Открытый код? Встает локально Особенность

ChatGPT-4o $20/мес Нет Нет Экосистема,GPT Store

DeepSeek-R1 Бесплатно Да Да Показывает ход рассуждений Claude 3.5 $20/мес Нет Нет Считается самой безопасной Qwen2.5 Бесплатно Да Да Сильна в математике и логике Mistral Large2 Бесплатно (API дешевый) Да/Нет Компактная, почти не лагает

👉Вывод: если у вас нет лишних $20 в месяц — присмотритесь к DeepSeek или Qwen. Они не просто бесплатны, но по многим параметрам не уступают, а иногда и превосходят платных гигантов.

🔥Итог: какая нейросеть лучше?

Однозначного ответа нет. И вот почему:

👌Если вам нужно… Берите…

Простота, экосистема, поддержка ChatGPT-4o Безопасность для бизнеса Claude 3.5 Мощь и дешевизна (почти бесплатно) DeepSeek-R1 Математика и логика за 0 рублей Qwen2.5 Компактность и быстродействие Mistral Large 2

👉Моя личная рекомендация: не зацикливайтесь на одном инструменте. Подписка на ChatGPT — $20. DeepSeek и Qwen — бесплатны. Имеет смысл пользоваться всеми тремя, выбирая под задачу.

P.S. Где больше тестов и живых сравнений?

Я веду Telegram-канал, где выкладываю:

Слепые тесты — угадайте, какая нейросеть умнее

Новые промты каждую неделю

Разборы свежих моделей в первые дни после выхода

👉 Подписывайтесь: t.me/uraganidei

Там я публикую то, что не помещается в Дзен: оперативные сравнения, видео-тесты и живые обсуждения с подписчиками.

А вы пользуетесь нейросетями? Какая ваша любимая? Напишите в комментариях!

Если пост был полезен — поставьте лайк 👍 и подпишитесь на канал, чтобы не пропустить следующие сравнения.