Добавить в корзинуПозвонить
Найти в Дзене
Цифровая Переплавка

📌 Пределы «горького урока» в ИИ: когда мощность вычислений уступает хитрости

Искусственный интеллект сегодня ассоциируется с огромными моделями, миллиардами параметров и вычислительными кластерами, которые потребляют столько энергии, сколько целые города. Причина такой гонки вооружений — знаменитый «горький урок», сформулированный исследователем Ричардом Саттоном, который гласит: в долгосрочной перспективе побеждают универсальные методы, масштабируемые за счёт вычислительных ресурсов, а не тонко настроенные, специализированные решения. Но так ли это на самом деле? Недавняя статья на сайте dbreunig.com ставит под сомнение универсальность этого принципа и приводит убедительные аргументы в пользу того, что иногда меньшие, хитроумные модели могут оказаться намного эффективнее. Разберёмся, когда именно «горький урок» Саттона сталкивается с реальной жизнью, и какие выводы из этого следует сделать. Для начала вспомним громкий пример из мира шахматных программ: Получается, что «горький урок» — не догма. В реальности подход, где сочетаются человеческая экспертиза и умер
Оглавление
Иллюстрация: часовые пески делят сцену на две части — слева громоздятся серверные башни с потоками двоичного кода, справа на светящейся микросхеме стоит золотой шахматный конь и шестерёнки. Образ противопоставляет «масштаб и brute-force» «умным гибридным стратегиям», ставя под вопрос безграничность «горького урока».
Иллюстрация: часовые пески делят сцену на две части — слева громоздятся серверные башни с потоками двоичного кода, справа на светящейся микросхеме стоит золотой шахматный конь и шестерёнки. Образ противопоставляет «масштаб и brute-force» «умным гибридным стратегиям», ставя под вопрос безграничность «горького урока».

Искусственный интеллект сегодня ассоциируется с огромными моделями, миллиардами параметров и вычислительными кластерами, которые потребляют столько энергии, сколько целые города. Причина такой гонки вооружений — знаменитый «горький урок», сформулированный исследователем Ричардом Саттоном, который гласит: в долгосрочной перспективе побеждают универсальные методы, масштабируемые за счёт вычислительных ресурсов, а не тонко настроенные, специализированные решения.

Но так ли это на самом деле? Недавняя статья на сайте dbreunig.com ставит под сомнение универсальность этого принципа и приводит убедительные аргументы в пользу того, что иногда меньшие, хитроумные модели могут оказаться намного эффективнее.

Разберёмся, когда именно «горький урок» Саттона сталкивается с реальной жизнью, и какие выводы из этого следует сделать.

🎲 Игра против реальности: шахматы и Stockfish против Leela Chess

Для начала вспомним громкий пример из мира шахматных программ:

  • ⚔️ Leela Chess Zero (Leela) — модель глубокого обучения, воплощающая в себе суть «горького урока». Она начинала с нуля, обучаясь исключительно за счёт огромного количества партий. В итоге Leela превзошла традиционные шахматные движки, хотя и потребляла невероятные вычислительные ресурсы.
  • 📱 Stockfish — классический движок, который долгое время базировался на традиционных алгоритмах, написанных человеком. В 2019 году команда Stockfish интегрировала небольшую нейросеть, обученную на подходах Leela. И, неожиданно, Stockfish стал чемпионом, обыграв Leela, при этом потребляя в сотни раз меньше ресурсов.

Получается, что «горький урок» — не догма. В реальности подход, где сочетаются человеческая экспертиза и умеренные вычисления, оказывается более эффективным, особенно когда речь идёт не о соревновании в вычислительной мощности, а о реальном использовании (например, шахматы на смартфоне).

🧩 Решение сложных задач без гигантских затрат: HRM и тест ARC-AGI

Ещё один наглядный пример — модель HRM (Hierarchical Reasoning Model), которая недавно показала удивительно высокие результаты на сложном тесте ARC-AGI:

  • 🧠 ARC-AGI — один из самых уважаемых тестов на общие способности рассуждения, ранее покорявшийся лишь огромным и дорогим моделям типа OpenAI o3 (стоимость решения задачи — $30,000).
  • 🎯 HRM, напротив, достигла сопоставимого результата, но имея всего лишь 27 миллионов параметров (для сравнения: большие языковые модели сегодня — это миллиарды параметров). HRM использовала специализированные методы и обучение на очень ограниченном наборе задач (всего около 1000 примеров). Её обучение оказалось несравнимо дешевле и быстрее.

Так что выходит, даже в сложных когнитивных задачах не всегда выигрывают гиганты, если модель грамотно использует специализированные алгоритмы и узкие знания, а не просто полагается на грубую вычислительную силу.

🗑 Бизнес как «мусорный бак» и почему это усложняет масштабирование ИИ

Автор статьи приводит также любопытную аналогию с «моделью мусорного бака» (Garbage Can Model) организационного управления, описанную Итаном Молликом. В реальной жизни компании и организации:

  • 🌀 Имеют неясные, часто противоречивые цели;
  • 📝 Зависимы от неформальных знаний и невнятных процедур;
  • 📊 Затрудняются с чётким измерением «качества» своих процессов и результатов.

Из-за этих причин масштабирование универсальных ИИ-методов здесь становится крайне затруднительным. Если в шахматах или игре Go есть строгие правила и однозначная оценка результата, то в реальной жизни компании часто не могут даже чётко сформулировать задачи, не говоря уже о точной разметке данных для обучения нейросетей.

Таким образом, в бизнес-среде часто побеждают не сверхмощные, универсальные ИИ, а гораздо более простые и понятные инструменты, работающие в тесном контакте с человеком.

🤔 «Горький урок» — не догма, а подсказка

В статье очень ярко подчёркивается, что «горький урок» — это лишь одно из направлений, которое стоит учитывать при создании ИИ-систем. Важно понимать границы его применимости:

  • 📈 Масштабируемость не всегда практична: Огромные вычислительные затраты не всегда оправдываются результатом.
  • 🎯 Человеческие знания имеют ценность: В некоторых случаях интеграция экспертного знания помогает добиться более быстрых и эффективных результатов.
  • ⚙️ Гибридные подходы побеждают: Часто комбинация «ручной настройки» и умеренного масштабирования оказывается оптимальной.

🚧 Личное мнение: практическое превосходит идеальное

На мой взгляд, автор статьи попадает в самую точку. Хотя «горький урок» Ричарда Саттона стал важной вехой и серьёзно повлиял на направление развития ИИ, не стоит воспринимать его как абсолютный закон.

Мир неидеален, и большинство практических задач слишком запутанны и многогранны, чтобы быть сведёнными исключительно к масштабируемым вычислительным методам. Наоборот, нужно искать баланс, интегрируя лучшее из двух миров: человеческие знания и гибкость ИИ.

К счастью, это значит, что ИИ будущего может быть доступен не только крупным корпорациям, обладающим суперкомпьютерами, но и небольшим компаниям, стартапам и даже отдельным разработчикам, которые готовы мыслить творчески и хитро.

Похоже, «горький урок» всё-таки имеет свои пределы, и это — хорошая новость.

🔗 Полезные ссылки: