Найти в Дзене
Системный скептик

Искусственный идиот: Как нейросеть съела сотню архивов кода на завтрак, но подавилась простой бизнес-задачей. Синдром «Аэродинамики лаваша"

Я профессионально тестирую нейросети. Это как работа дегустатора, только вместо вина у тебя гигабайты данных, а вместо послевкусия — экзистенциальный ужас или восторг. Через мой «операционный стол» прошли все топовые (и не очень) модели. Я видел их взлеты и падения, их галлюцинации и проблески гениальности. Но последняя модель, попавшая мне «под нож» — китайский MiniMax, заставил меня пережить весь спектр эмоций за один вечер: от «Боже, мы все потеряем работу» до «Боже, какой же он тупой». Эта история о том, где проходит реальная граница возможностей современного ИИ, и почему вам не стоит доверять бизнес-план гениальному программисту. МОЗГГ! Акт первый: Гений чистой красоты Знакомство началось феерично. Я решил не мелочиться и сразу бросил MiniMax под танк: скормил ему сложнейшую техническую задачу. Дано: почти миллион строк "христоматийного" Java-кода, но с багами. Энтерпрайз-уровень, спагетти-код, черт ногу сломит. Задача: Разобраться, проанализировать структуру, найти ошибки. Я при
Оглавление

Я профессионально тестирую нейросети. Это как работа дегустатора, только вместо вина у тебя гигабайты данных, а вместо послевкусия — экзистенциальный ужас или восторг. Через мой «операционный стол» прошли все топовые (и не очень) модели. Я видел их взлеты и падения, их галлюцинации и проблески гениальности.

Но последняя модель, попавшая мне «под нож» — китайский MiniMax, заставил меня пережить весь спектр эмоций за один вечер: от «Боже, мы все потеряем работу» до «Боже, какой же он тупой».

Эта история о том, где проходит реальная граница возможностей современного ИИ, и почему вам не стоит доверять бизнес-план гениальному программисту.

МОЗГГ!
МОЗГГ!

Акт первый: Гений чистой красоты

Знакомство началось феерично. Я решил не мелочиться и сразу бросил MiniMax под танк: скормил ему сложнейшую техническую задачу.

Дано: почти миллион строк "христоматийного" Java-кода, но с багами. Энтерпрайз-уровень, спагетти-код, черт ногу сломит.

Задача: Разобраться, проанализировать структуру, найти ошибки.

Я приготовился ждать полдня. Поставил чайник, открыл новости.

Результат: Через 10 минут (десять!) MiniMax вернулся с идеально структурированным отчетом. Он не просто «прочитал» код. Он проявил чудеса понимания, идеально отработал агентский цикл, разложил все по полочкам и указал на проблемы, которые я сам искал бы неделю.

Я сидел перед монитором в священном трепете. Это был не ИИ, это был цифровой Бог программирования. Я уже мысленно паковал вещи и готовился к жизни на безусловном базовом доходе.

Акт второй: Коса находит на камень

Окрыленный успехом, я решил: раз ты такой умный, реши-ка мне реальную проблему. Не рафинированный код, а "тусклую", жизненную бизнес-задачу.

Дано: 4 строчки текста. Описание простой бизнес-модели. Немного запутанное, с парой неоднозначностей, но в целом — понятное любому студенту экономфака, а может и школьнику с правильной "заточкой".

Задача: Оценить эффективность этого бизнес-решения.

... и нажал Enter.

Прошла минута. Две. Десять.

Индикатор «думаю» крутился с гипнотической настойчивостью.

Я успел выпить остывший чай. Проверить почту. Посмотреть фильм.

Прошел ЧАС!

Результат: Спустя 60 минут мучительных раздумий, цифровой гений, который только что щелкал тонны кода, как орешки, выдал убогую простыню текста.

Я начал читать и почувствовал, как у меня дергается глаз. Это была откровенная, безграмотная, дистиллированная фигня. Нейросеть запуталась в трех соснах, придумала кучу условий, которых не было в задаче, ушла в какие-то дебри финансовой философии и выдала вывод, противоречащий здравому смыслу.

Мне стало жутко противно. Как будто Эйнштейн на моих глазах не смог посчитать сдачу в магазине.

А все таки она вертится?
А все таки она вертится?

Акт третий: Синдром «Аэродинамики лаваша»

Я повторял эксперимент несколько раз. Результат всегда один: технические задачи решены - блестяще, бизнес задачи — полный ступор и бред.

Почему так происходит?

У исследователей ИИ есть термин: «Jagged Frontier» (Рваная граница возможностей).

MiniMax — это гениальный «аутист» от мира ИИ.

Когда вы даете ему код, для него все четко: есть синтаксис, есть правила, есть однозначный критерий успеха — компилируется или нет. Миллиарды строк кода на GitHub научили его жесткой логике.

Но бизнес — это «мягкая» логика. Тут нет единственно верного ответа. Тут есть контекст, интуиция, допущения и двусмысленность.

Когда MiniMax увидел 4 строчки «немного запутанного» бизнес-текста, он попытался применить к ним тот же математический аппарат, что и к программному коду.

  • Он искал жесткие связи там, где их нет.
  • Он пытался устранить любую неопределенность, придумывая факты.
  • Он ушел в бесконечный цикл уточнений самого себя, перегрелся и выдал галлюцинацию.

Это выглядит так: Вы просите ИИ оценить, выгодно ли открыть ларек с шаурмой у метро. Нормальный человек прикинет проходимость и цену аренды.

А MiniMax впадает в ступор на час, потому что пытается рассчитать аэродинамику лаваша при сворачивании и термодинамику остывания мяса на ветру, чтобы вывести формулу идеальной прибыли.

Мораль

Мы часто переоцениваем универсальность ИИ. Если модель гениально решает интегралы, это не значит, что ей можно доверить семейный бюджет.

MiniMax — потрясающий инструмент для технарей. Но если вам нужно решить бизнес-задачу, лучше спросите у соседа дяди Вани. Он, может, и не знает таинств разработки кода, зато в «аэродинамике лаваша» и реальной жизни разбирается куда лучше.

А вы сталкивались с тем, что нейросети тупили на простых задачах? Делитесь эпичными провалами в комментариях! И подписывайтесь, я еще не все модели сломал.