214 подписчиков

Когда нейросетям становится тесно: почему крупные языковые модели буксуют на сложных задачах

2 февраля 20252 фев 2025

5 мин

Современные языковые модели поражают воображение своим умением генерировать осмысленные тексты, помогать с написанием кода и даже решать типичные задачи на понимание естественного языка. Однако свежие научные исследования бьют тревогу: оказывается, при попытке выполнять действительно сложные композиционные задачи — вроде разбора многоступенчатых логических головоломок — у LLM (Large Language Models) возникают серьёзные затруднения. Ни гигантские объёмы данных, ни многослойные нейронные сети не гарантируют моделям умения «по-настоящему рассуждать». И хотя стороннему наблюдателю может казаться, что чат-бот «продумывает» ответы, в действительности он лишь «угадывает» наилучший вариант следующего слова по паттернам, извлечённым из огромных массивов текста. Ниже я расскажу о том, что именно мешает моделям выполнять сложные логические операции, а заодно поделюсь своим видением того, в каком направлении может продолжиться развитие таких систем. Когда-то знаменитая загадка про «зебру» (часто п

Оглавление

От «Загадки Эйнштейна» к сложностям в арифметике
Технические детали и ограничивающие факторы
Как обходить ограничения: цепочки рассуждений и новые трюки

От «Загадки Эйнштейна» к сложностям в арифметике

Когда-то знаменитая загадка про «зебру» (часто приписываемая Эйнштейну) из журнала Life International (1962) служила источником развлечения для любителей логических задач. Сегодня же, как показали исследования команды Нухи Дзири (Nouha Dziri) из Института искусственного интеллекта Аллена (Allen Institute for AI), подобные классические логические головоломки на удивление часто ставят в тупик даже самые передовые LLM.

👉 Основные «подводные камни» здесь:

🤔 Многозадачность: нужно одновременно сопоставлять несколько признаков (цвет дома, национальность жильца, любимый напиток и т. д.).
🏠 Иерархия условий: решение требует собирать подсказки в цепочку причинно-следственных связей, а не просто выдавать «заготовленный» ответ.
🔎 Неочевидные выводы: если пропустить одну косвенную деталь (например, «В зелёном доме пьют кофе»), вся логическая цепочка рассыпается.

Любопытно, что тесты с умножением длинных чисел выявили тот же тренд. Если модель не видела точного (очень похожего) примера в обучающих данных — она начинает «гадать», и качество ответов резко падает. Это заставило учёных задаться вопросом: «А действительно ли нейросеть “понимает” задачу, или она лишь использует статистику, чтобы воспроизвести паттерны из обучающей выборки?».

Технические детали и ограничивающие факторы

Наиболее распространённая архитектура для LLM — трансформер (transformer). Он состоит из многослойных «голов» внимания (self-attention), которые обрабатывают входные токены (слова, символы или куски слов). Теоретики, в том числе Бинхуй Пен (Binghui Peng) и Кристос Пападимитриу (Christos Papadimitriou), показали, что даже подобные сложные сети имеют математические пределы в плане композиционных способностей.

👉 Что главное в этих ограничениях:

🧠 Память и вычислительные ресурсы: у модели конечное количество параметров, и при усложнении задач (например, больше домов в «загадке Эйнштейна») она просто не «вместит» все необходимые связи в активной памяти.
👀 Контекстное окно: даже если модель способна «смотреть» на тысячи токенов, само по себе внимание не гарантирует, что она адекватно «склеит» куски фактов в непротиворечивое целое.
🏆 Теоретические границы: согласно доказательствам из области теории вычислительной сложности, существуют классы задач, решить которые трансформеру не под силу при любом доступном «масштабировании» (росте числа слоёв или параметров).

Впрочем, совсем списывать эти системы со счетов не стоит. Исследователи активно ищут способы обхода и «хаков», позволяющих учить чат-боты находить более точные решения.

Как обходить ограничения: цепочки рассуждений и новые трюки

Один из популярных приёмов — так называемое пошаговое рассуждение (chain-of-thought prompting). Идея сводится к тому, чтобы «подсказывать» модели пошаговую логику решения задачи: сначала формулируем подзадачу, решаем её, переходим к следующему пункту и т. д. Это помогает LLM как бы «разбивать» крупную проблему на удобоваримые фрагменты.

👉 Почему это может сработать:

🧩 Пошаговая декомпозиция: модель получает явный сигнал, как двигаться от простого к сложному.
📐 Усиление внимания: при наличии цепочки рассуждений трансформер фокусируется на промежуточных логических связях, а не только на «последнем слове» в предложении.
💡 Улучшение точности: эксперименты показывают, что метод даёт ощутимый прирост в решении арифметических и логических задач, хотя и не устраняет фундаментальных пределов.

Другой путь — это введение специальных структур данных и дополнительных признаков (positional embeddings), позволяющих модели кодировать числа или факты в более явном виде. Например, команда Тома Голдстейна (Tom Goldstein) экспериментировала с тем, как лучше представлять цифры, и получила высокую точность при сложении или умножении больших чисел. Но и у этих подходов есть потолок: рано или поздно задача усложнится так, что никакая «обученная» сеть не сможет дать корректный ответ без полного пересмотра архитектуры.

Моё мнение: что дальше?

Лично мне кажется, что мы находимся в интересном периоде, когда достижения LLM поражают обывателя, но в то же время исследователи активно ищут альтернативные пути развития искусственного интеллекта. Возможно, в перспективе нас ждёт слияние нейронных методов с классическими алгоритмическими подходами (когда часть вычислительной логики берёт на себя традиционный символьный ИИ). Это могло бы дать что-то вроде «нейро-символьного» гибрида, который умеет быстро извлекать статистические закономерности, но при этом сохранять способность к чёткому дедуктивному рассуждению.

👉 Возможные сценарии будущего:

🔗 Символьные модули: система разбирает задачу на структурированное представление и пользуется базой знаний для логических выводов.
🏭 Модули нейросетевого распознавания: цепляют подтекст, неявные связи, тона и стили (что LLM делает сейчас хорошо).
🚀 Гибкие гибридные решения: комбинация символьных и статистических методов, где каждая часть «делает своё дело», а скоординированный результат получается точнее и надёжнее.

Любая технология достигает момента, когда «простой рост масштабов» перестаёт приносить существенный прирост в возможностях. Трансформеры, судя по последним исследованиям, близки к такому порогу в сфере мультишаговой композиции. Но это вовсе не ставит крест на крупных языковых моделях: они остаются мощными инструментами во множестве областей, от генерации текста до анализа эмоций. Тем не менее, если мы хотим действительно умную систему, способную планировать на много шагов вперёд, вероятно, придётся изобретать нечто большее, чем просто очередную LLM с миллионным количеством параметров.

Ссылка на первоисточник

Статья «Chatbot Software Begins to Face Fundamental Limitations» (Quanta Magazine):
https://www.quantamagazine.org/chatbot-software-begins-to-face-fundamental-limitations-20250131/