Найти в Дзене
Экономика и котики

Как думают нейросети, магия черного ящика

У современных ИИ есть два основных способа “мышления”. Модель разбивает задачу на последовательные шаги, которые видны пользователю. Это позволяет отслеживать логику модели и решать более сложные задачи. Все внутренние рассуждения происходят внутри нейронной архитектуры, и модель выдает сразу готовый ответ. В одном из последних исследований проверили разрыв между прозрачным мышлением искусственного интеллекта и ее скрытой архитектурой. Для этого использовали набор из 907 математических задач уровня школьных олимпиад, каждая из которых требовала от человека от 1 до 15 минут на решение. Моделям запретили использовать цепочку мыслей. Ключевой показатель исследования — «горизонт времени». Он обозначает, какие «задачи, на решение которых у среднего человека уходит X минут, ИИ может решать с 50%-й надежностью». В среднем модели показали горизонт в 1,5 минуты. Это значит, что в половине случаев ИИ мгновенно справлялся с задачами, на которые у подготовленного человека ушло бы больше минуты. Ре

У современных ИИ есть два основных способа “мышления”.

  1. Цепочка мыслей (Chain-of-Thought), “рассуждения вслух” или “медленное мышление”.

Модель разбивает задачу на последовательные шаги, которые видны пользователю. Это позволяет отслеживать логику модели и решать более сложные задачи.

  1. Скрытые рассуждения (Single Forward Pass) “мгновенная интуиция” или быстрое “мышление”

Все внутренние рассуждения происходят внутри нейронной архитектуры, и модель выдает сразу готовый ответ.

В одном из последних исследований проверили разрыв между прозрачным мышлением искусственного интеллекта и ее скрытой архитектурой.

Для этого использовали набор из 907 математических задач уровня школьных олимпиад, каждая из которых требовала от человека от 1 до 15 минут на решение. Моделям запретили использовать цепочку мыслей.

Ключевой показатель исследования — «горизонт времени». Он обозначает, какие «задачи, на решение которых у среднего человека уходит X минут, ИИ может решать с 50%-й надежностью».

В среднем модели показали горизонт в 1,5 минуты. Это значит, что в половине случаев ИИ мгновенно справлялся с задачами, на которые у подготовленного человека ушло бы больше минуты. Результаты варьируются в зависимости от модели. Например, современные модели Anthropic Claude 3.5 Sonnet и Gemini 2.0 Flash достигают горизонта времени в 3,5 минуты. Получается, нейросеть в режиме «черного ящика» мгновенно решает задачи, требующие от человека заметных усилий.

Год назад этот показатель был вдвое меньше. Способность ИИ к мгновенному решению, согласно исследованию, удваивается каждые 9 месяцев (см график). При этом если использовать цепочку рассуждений, то Claude 3.5 Sonnet может решать задачи, требующие от человека нескольких часов работы.

-2

Таким образом, «быстрое» мышление ИИ постепенно догоняет по сложности задач «медленное». Возникает вопрос: как скоро модели превратятся в абсолютный черный ящик, чью работу мы не сможем отследить и понять?

Здесь на ум приходит третий закон Артура Кларка: «Любая достаточно развитая технология неотличима от магии».