7902 подписчика

Рентген "мозга" модели ИИ

2 июня 20242 июн 2024

1 мин

Сегодняшний искусственный интеллект, часто описывается как "черный ящик" – объект глубокого изучения для ученых и разработчиков. Одной из основных проблем является непрозрачность внутренней работы таких систем, особенно нейронных сетей, которые являются наиболее мощным типом искусственного интеллекта.

Однако лаборатория искусственного интеллекта Anthropic объявила о значительном прорыве в решении этой проблемы. Их исследователи разработали технику сканирования "мозга" модели ИИ, что позволяет идентифицировать коллекции нейронов, называемые "особенностями", соответствующие различным концепциям. Это открытие стало возможным благодаря передовой большой языковой модели Anthropic - Claude Sonnet.

В ходе исследования было обнаружено, что внутри модели Claude существуют функции, представляющие различные концепции, включая даже такие опасные, как "небезопасный код". Подавляя определенные нейроны, исследователи смогли контролировать генерацию кода моделью, предотвращая появление уязвимостей безопасности.

Эти результаты имеют огромное значение для безопасности существующих и будущих систем искусственного интеллекта. Исследователи обнаружили внутри модели миллионы особенностей, включая те, которые связаны с предвзятостью, мошенничеством и токсичным поведением. Подавляя эти особенности, можно изменить поведение модели, что может помочь в предотвращении различных рисков.

Хотя исследование находится на ранней стадии, Anthropic выражает оптимизм относительно возможностей этого метода для обеспечения безопасности моделей искусственного интеллекта. Возможность манипулировать функциями моделей может стать эффективным способом прямого воздействия на безопасность и предотвращение потенциальных угроз.

Это открытие открывает новые перспективы для понимания и контроля работы искусственного интеллекта. Дальнейшие исследования в этой области могут привести к разработке более безопасных и прозрачных систем ИИ, что является ключевым шагом в обеспечении безопасности и эффективности этой технологии в будущем.