Нейросети облажались и не смогли выполнить даже 25% от того, что выполняют кожаные мешки на рабочих местах

15 мая 202515 мая 2025

1 мин

Интересный и показательный эксперимент! Товарищи-ученые из американского университета Карнеги - Меллона решили выяснить, могут ли сейчас нейросети от Google, OpenAI, Meta и других корпораций полноценно заменить сотрудников небольшой IT-компании. ИИ-агенты выполняли роли директоров, аналитиков, программистов, и должны были ежедневно выполнять стандартный пак задач кожаных мешков — анализ баз данных, разработка софта и отчеты о работе коллег. Результат унылый. С 24% заданий справился только чат-бот Claude 3.5 Sonnet от Anthropic. Остальные же грустно плелись в конце, а аутсайдер от Амазон не вывез даже 2%. Начиналось все довольно неплохо, но по ходу усложнения задач наши нейросетные друзья начали сыпаться буквально на каждом шагу: Нейросети неправильно понимали разговоры с коллегами и обманывали сами себя, что приводило к абсурдным действиям. Например, ИИ в рабочем чате переименовал одного пользователя в другого, чтобы найти нужного человека. Другие исследования также пришли к выводу, чт

Интересный и показательный эксперимент!

Товарищи-ученые из американского университета Карнеги - Меллона решили выяснить, могут ли сейчас нейросети от Google, OpenAI, Meta и других корпораций полноценно заменить сотрудников небольшой IT-компании. ИИ-агенты выполняли роли директоров, аналитиков, программистов, и должны были ежедневно выполнять стандартный пак задач кожаных мешков — анализ баз данных, разработка софта и отчеты о работе коллег.

Результат унылый. С 24% заданий справился только чат-бот Claude 3.5 Sonnet от Anthropic. Остальные же грустно плелись в конце, а аутсайдер от Амазон не вывез даже 2%. Начиналось все довольно неплохо, но по ходу усложнения задач наши нейросетные друзья начали сыпаться буквально на каждом шагу:

Нейросети неправильно понимали разговоры с коллегами и обманывали сами себя, что приводило к абсурдным действиям. Например, ИИ в рабочем чате переименовал одного пользователя в другого, чтобы найти нужного человека.

Другие исследования также пришли к выводу, что ИИ не справляется с многоэтапными задачами и пока не может гибко ориентироваться в меняющихся условиях, агенты с трудом справляются с задачами на уровне человека, когда их перегружают инструментами и инструкциями.

О чем нам это напоминает?

О том, что ИИ - это помощник. Не замена, не альтернатива, а просто подмога в ряде задач, чтобы где-то ускорить процесс, где-то сделать дополнительную проверку, где-то получить дополнительные идеи. Но не надо надеяться на то, что ИИ сделает за вас всю работу. Основную работу по-прежнему делают двуногие организмы своими руками и мозгами.

Возможно, когда-нибудь это изменится. Будем следить. Как у вас с нейронками дела? Кому-нибудь удалось заменить нейронкой человека в своем проекте или бизнесе? Делитесь ✏️

Почитать результаты исследования на английском вы можете вот тут.