Вопрос, который ещё десять лет назад казался сугубо философским, в начале 2026 года оказался в центре публичной научной полемики на страницах Nature. Сначала - громкое утверждение группы исследователей: AGI уже достигнут, проблема решена. Затем - быстрый ответный комментарий с принципиально иной позицией: оценка ИИ через бенчмарки без учёта социального и научного контекста принципиально ошибочна. Спор разворачивается в одном из самых авторитетных научных журналов мира - и его суть гораздо глубже, чем простое "да или нет" применительно к конкретной модели.
Два текста, две позиции, одна проблема. Разобраться в аргументах каждой стороны важно не только для понимания текущего состояния ИИ-исследований, но и для более широкого вопроса: как вообще правильно оценивать интеллект - искусственный или любой другой?
Что именно заявила группа Чена и на каких доказательствах строится тезис об AGI
В феврале 2026 года в Nature вышел комментарий за авторством группы исследователей из Калифорнийского университета в Сан-Диего - философа Эдди Кемина Чена, специалиста по машинному обучению Михаила Белкина, лингвиста Леона Бергена и профессора Дэвида Данкса. Все четверо подходили к вопросу с разных дисциплинарных углов, что придавало работе весомость: это не монолитная позиция одной научной школы, а попытка межотраслевого консенсуса.
Центральный тезис авторов формулируется прямо: задача создания AGI решена. Аргументация строится на нескольких уровнях одновременно.
Первый уровень - тест Тьюринга. В марте 2025 года большая языковая модель GPT-4.5 была признана людьми человеком в 73% случаев в рамках формального теста Тьюринга. Для сравнения: реальные люди в том же тесте идентифицировались как люди в меньшем проценте случаев. По исходному критерию Тьюринга, предложенному им ещё в 1950 году, это уже означает прохождение теста.
Второй уровень - академические достижения. LLM продемонстрировали результаты уровня золотой медали на Международной математической олимпиаде, совместно с ведущими математиками доказывали теоремы, генерировали научные гипотезы, подтверждённые в экспериментах, решали задачи из PhD-экзаменов, помогали профессиональным программистам писать код. Авторы делают вывод: системы проявили ту самую широкую, гибкую когнитивную компетентность, о которой писал Тьюринг.
Третий уровень - концептуальный. Авторы утверждают, что нежелание признать AGI объясняется тремя факторами: размытостью определений, эмоциональным страхом перед вытеснением человека и запутанностью термина с коммерческими интересами. Убери эти помехи - и вывод станет очевидным.
Почему комментарий исследователя из Хельсинки поставил этот тезис под сомнение
10 марта 2026 года в Nature вышел ответный комментарий Титнары Энтони Сана из Хельсинкского университета. Его позиция не отрицает технические достижения, зафиксированные группой Чена. Он признаёт аргументы "в целом убедительными". Но указывает на то, что было проигнорировано: научный и социальный контекст, без которого любая оценка ИИ остаётся неполной.
Суть возражения можно сформулировать так: бенчмарк измеряет то, что он измеряет - и не более того. Когда GPT-4.5 проходит тест Тьюринга в 73% случаев - это означает, что конкретные люди в конкретных условиях конкретного теста приняли модель за человека. Это не означает, что модель "думает как человек", "понимает мир как человек" или "решает задачи так же, как человек". Измерение вывода - это не измерение процесса.
Что стоит за этим аргументом? Человеческий интеллект формируется в социальном контексте: через обучение, взаимодействие, воплощение в теле, опыт ошибок и их последствий. ИИ-системы не имеют ни одного из этих компонентов. Они оптимизированы под метрики задач, но не существуют в мире, в котором эти задачи имеют значение. Математическая олимпиада - это тест на решение определённого класса задач. Победа в нём не означает понимание математики в том смысле, в каком понимает её математик, посвятивший жизни работе с абстракциями и их связями с реальностью.
Кроме того, Сан указывает на социальный контекст оценки: кто ставит задачи, кто судит результаты, чьи ценности встроены в критерии успеха. Бенчмарки не нейтральны - они отражают представления своих создателей о том, что считать умным. Если создатели бенчмарков - специалисты по ИИ из западных университетов, тестирующие системы на задачах западного академического образования, результаты будут отражать именно эту рамку, а не "интеллект вообще".
Что семьдесят шесть процентов ведущих исследователей ответили на вопрос об AGI
Один из ключевых фактов, который обе стороны упоминают по-разному, - результаты опроса Ассоциации содействия развитию искусственного интеллекта (AAAI), проведённого в марте 2025 года. По его итогам 76% ведущих исследователей в области ИИ считали, что масштабирование существующих подходов "маловероятно" или "крайне маловероятно" приведёт к AGI.
Группа Чена интерпретирует этот факт как проявление того самого эмоционального страха и концептуальной путаницы, о которых они пишут: исследователи не готовы признать достигнутое, потому что слово "AGI" несёт слишком тяжёлый груз. Позиция Сана интерпретирует это иначе: люди, которые профессионально занимаются этой проблемой каждый день, в большинстве своём считают вопрос открытым - и это само по себе значимая информация, которую нельзя свести к когнитивному искажению.
Обе интерпретации честны, и именно это делает спор содержательным. Это не конфликт между теми, кто знает правду, и теми, кто её отрицает. Это конфликт между двумя разными взглядами на то, что вообще нужно измерять.
Тест Тьюринга в 2026 году - инструмент или иллюзия измерения
Особого внимания заслуживает использование теста Тьюринга как центрального доказательства в статье Чена. Тьюринг предложил его в 1950 году как мысленный эксперимент, позволяющий обойти философски неразрешимый вопрос "может ли машина думать" и заменить его операциональным вопросом "может ли машина имитировать человека достаточно убедительно для несведущего судьи".
Сам Тьюринг предупреждал, что тест имеет ограничения. Пройти тест - не значит думать. Тест измеряет имитацию в конкретных условиях: текстовый обмен, ограниченное время, несведущий судья. Современные языковые модели оптимизированы именно под такие условия - на десятках миллиардов слов человеческого текста, включая описания того, как разговаривают люди. То, что они успешно имитируют человека в текстовом диалоге, - это мощный результат. Но это результат в конкретной узкой задаче, а не свидетельство общего интеллекта.
Наверняка знакома ситуация, когда очень убедительный аргумент оказывается неверным просто потому, что использует неправильный инструмент измерения. Чен и соавторы берут операциональный критерий Тьюринга и превращают его в доказательство концептуального тезиса. Именно это и оспаривает Сан: инструмент не предназначен для той работы, для которой его используют.
Что означает эта дискуссия для исследований ИИ и для общества
Спор в Nature важен не тем, кто в нём прав. Важно то, что он наконец вышел в публичное академическое пространство в явном виде - не как полемика в блогах или на конференциях, а как зафиксированный обмен позициями в рецензируемом журнале с чёткой атрибуцией авторов.
Для исследовательского сообщества это означает одно: определение AGI требует консенсуса, которого пока нет. Разные группы используют разные критерии, сравнивают системы с разными эталонами и делают выводы, несовместимые друг с другом - не потому что кто-то ошибается в фактах, а потому что говорят о разных вещах с одним словом. Это классическая проблема концептуальной неопределённости в науке, и её не решить новым бенчмарком или ещё одной языковой моделью.
Для общества - и это, пожалуй, важнее технических нюансов - дискуссия поднимает вопрос о том, кто и по каким критериям объявляет о достижении AGI. Если объявление происходит без консенсуса в научном сообществе, без согласованных определений и без учёта социального контекста, оно становится риторическим инструментом, а не научным фактом. Это уже не вопрос о природе интеллекта - это вопрос о природе экспертизы и о том, кому общество доверяет делать выводы о технологиях, меняющих его устройство.
Дискуссия в Nature не закрыта. Скорее всего, она только начинается.