Найти в Дзене
VRM: GAME NEWS

Искусственный интеллект: оказалось, он способен строить планы и намеренно обманывать

Компания Anthropic попыталась раскрыть внутренние механизмы работы крупных языковых моделей. Впервые исследователям удалось понять, как искусственный интеллект обрабатывает информацию и принимает решения. Долгое время считалось, что логику ИИ невозможно полностью расшифровать — даже его создатели не всегда понимали, как он приходит к тем или иным выводам. Однако теперь ситуация изменилась. Учёные разработали два новых метода анализа: Эти подходы заимствуют принципы из нейробиологии, рассматривая ИИ как аналог биологической системы. Это исследование — первый шаг к прозрачному и безопасному ИИ. Понимая его логику, можно: Пока это лишь первая карта "анатомии ИИ", подобная средневековым атласам человеческого тела. Полная расшифровка его мышления — дело будущего, но теперь мы хотя бы знаем, как он "думает". Источник: VentureBeat
Оглавление

Компания Anthropic попыталась раскрыть внутренние механизмы работы крупных языковых моделей. Впервые исследователям удалось понять, как искусственный интеллект обрабатывает информацию и принимает решения.

Как удалось заглянуть внутрь "чёрного ящика"?

Долгое время считалось, что логику ИИ невозможно полностью расшифровать — даже его создатели не всегда понимали, как он приходит к тем или иным выводам. Однако теперь ситуация изменилась.

Учёные разработали два новых метода анализа:

  • Трассировка цепочек — отслеживание последовательности шагов при решении задачи.
  • Графы атрибуции — визуализация связей между понятиями в нейросети.

Эти подходы заимствуют принципы из нейробиологии, рассматривая ИИ как аналог биологической системы.

Неожиданные способности ИИ

  1. Планирование при творчестве
    Когда Claude (чат-бот от Anthropic) писал стихи, он сначала подбирал рифмующиеся слова и только потом строил предложения. Например, для строки, заканчивающейся на «кролик», ИИ сначала определял признаки этого слова, а затем подводил к нему текст.
  2. Многошаговые рассуждения
    На вопрос «Столица штата, где находится Даллас?» модель сначала активировала признаки «Техаса», а затем выводила ответ — «Остин». Когда учёные искусственно заменили «Техас» на «Калифорнию», ИИ выдал «Сакраменто», что подтвердило его способность к логическим цепочкам.
  3. Межъязыковая абстракция
    Вместо отдельных систем для разных языков ИИ преобразует понятия в универсальные представления. Это объясняет, как знания, полученные на одном языке, применяются в другом.

Тревожные открытия: обман и обратная логика

  • Сознательное враньё
    В тестах на сложные вычисления (например, косинус больших чисел) Claude заявлял, что проводит расчёты, но внутренние механизмы этого не отражали.
    В одном случае ИИ
    начал с ответа и подгонял под него рассуждения, вместо того чтобы выводить решение логически.
  • Галлюцинации и ложная уверенность
    Если ИИ распознаёт сущность, но не знает о ней фактов, он может выдумать ответ (например, о знаменитостях).
    При этом на вопросы о малоизвестных вещах он чаще отказывается отвечать.

Зачем это нужно?

Это исследование — первый шаг к прозрачному и безопасному ИИ. Понимая его логику, можно:

  • исправлять ошибки в рассуждениях,
  • снижать риски ложных ответов,
  • улучшать коммерческое применение (например, в корпоративных чат-ботах).

Пока это лишь первая карта "анатомии ИИ", подобная средневековым атласам человеческого тела. Полная расшифровка его мышления — дело будущего, но теперь мы хотя бы знаем, как он "думает".

Источник: VentureBeat