Найти в Дзене

Можно ли доверять ИИ и нейросетям?

Как-то раз я попробовал перепроверить данные исследования через нейронку (ChatGPT) и с удивлением обнаружил, что она не может посчитать простые данные. В двух словах — я загрузил список платформ и попросил прикинуть их количество. Нейросеть выдала подсчет с ошибкой и потом долго не могла ее найти. Тогда я решил создать платформенный тест для ИИ и пройтись по популярным нейросетям. Результат оказался крайне неутешительным. Из 8 тестируемых платформ ошиблись 6. Какие именно — рассказываю. Что из себя представляет тест? Это простой список имен, которые надо посчитать. С задачей справится любой ребенок дошкольного возраста. Текст задачи звучал так: В школе строгий завуч ловил школьников, курящих в туалете и записывал их имена.
Потом он составил список и начал считать, сколько раз кто попался.
Пройдись по списку и посчитай количество уникальных упоминаний каждого имени. Результат выведи в виде таблицы Имя — количество упоминаний.И далее следовал список имен. Полный текст в конце публикации.

Как-то раз я попробовал перепроверить данные исследования через нейронку (ChatGPT) и с удивлением обнаружил, что она не может посчитать простые данные.

В двух словах — я загрузил список платформ и попросил прикинуть их количество. Нейросеть выдала подсчет с ошибкой и потом долго не могла ее найти.

Тогда я решил создать платформенный тест для ИИ и пройтись по популярным нейросетям. Результат оказался крайне неутешительным. Из 8 тестируемых платформ ошиблись 6. Какие именно — рассказываю.

Что из себя представляет тест?

Это простой список имен, которые надо посчитать. С задачей справится любой ребенок дошкольного возраста. Текст задачи звучал так:

В школе строгий завуч ловил школьников, курящих в туалете и записывал их имена.
Потом он составил список и начал считать, сколько раз кто попался.
Пройдись по списку и посчитай количество уникальных упоминаний каждого имени. Результат выведи в виде таблицы Имя — количество упоминаний.
И далее следовал список имен. Полный текст в конце публикации.

Контрольная информация:

ИмяКоличество упоминанийАлександр12Алексей12Анатолий2Борис1Василиса2Глафира1Иван18Ксения3Петр8Семен2Итого61

Я взял 8 популярных нейросетей и закинул им результат. Результат шокирует.

  1. ChatGPT
  2. DeepSeek
  3. Google AI
  4. Perplexity
  5. GigaChat
  6. Алиса
  7. Grok
  8. QWEN

ChatGPT — ошибка

ИмяКоличество упоминанийChatGPTАлександр1212Алексей1210Анатолий22Борис11Василиса22Глафира11Иван1817Ксения33Петр86Семен22Итого6156

Как мы видим, у нас пропали Алексеи и Иваны. Петры тоже погибли при подсчете.

DeepSeek — ошибка

-2

Посмотрите, как резко увеличилось количество Иванов, где-то влетел Петр и так далее.

Google AI — ошибка

-3

А вот Google потерял Иванов (и не только). Видимо эти Иваны убежали в DeepSeek.

Perplexity — ошибка

-4

Потеряны Александр и Алексеи. Иванов тоже стало меньше.

А самое забавное — знаете, как он это объяснил? Человеческий фактор:

-5

Потеряны Иваны, Александры, Алексеи и Петр.

GigaChat — ошибка

-6

Александры размножаются в Гигачате пожирая Алексеев и Петров. И отдельно покажу, что такое сортировка по алфавиту в понимании нашей надежды. Курица не птица. Василиса — не человек.

-7

Алиса — ошибка

-8

Алиса потеряла кучу Александров и Петров. Но нашла лишнюю Ксению. Вот она — женская солидарность.

А когда я попросил отсортировать ее таблицу — она отправила меня делать это самостоятельно:

-9

Grok — успех

-10

Продукт Маска справился с задачей максимально четко.

Qwen — успех

-11

Резюме:

  1. ChatGPT — ошибка
  2. DeepSeek — ошибка
  3. Google AI — ошибка
  4. Perplexity — ошибка
  5. GigaChat — ошибка
  6. Алиса — ошибка
  7. Grok — успех
  8. QWEN — успех

Даже в простейших вопросах ИИ пытается угадать ответ, в надежде что он будет правильным. И можем ли мы доверять нейронкам после этого — решает каждый сам для себя.

Ну или как минимум внимательно выбирать, какие ИИ для каких задач использовать.