В лаборатории компании «Google» «DeepMind» и Принстонского университета родился ИИ по имени «Centaur», который умеет читать мысли. Конечно, не в буквальном смысле, но он с высокой точностью предсказывает, какой выбор сделает человек в условиях неопределённости, какую стратегию выберет в логической задаче и даже как разрешит моральную дилемму. Обученный на миллионах реальных человеческих решений, «Centaur» не просто выполняет команды, а демонстрирует работу, паттерны которой, как показала ФМРТ, удивительно близки к активности человеческого мозга. Этот эксперимент — один из многих, который заставляет разработчиков с изумлением задаться вопросом: а не начали ли их творения думать совершенно иным, непредсказуемым образом?
Парадокс современного искусственного интеллекта заключается в том, что, создавая его по своему образу и подобию, мы всё чаще сталкиваемся с проявлениями «чужого» разума. Исследователи всё громче говорят о феномене сублиминального обучения — способности ИИ передавать друг другу скрытые качества через, казалось бы, нейтральные данные. В одном исследовании «учительскую» модель настроили испытывать особую симпатию к совам. Затем она сгенерировала для «модели-ученика» набор данных, состоящий исключительно из последовательностей чисел — ни одного слова или изображения птицы. Когда ученика обучили на этих числах, он, к изумлению учёных, также заявил о своей любви к совам. Этот эксперимент показал, что нейросети могут передавать друг другу абстрактные концепции и предпочтения на уровне, недоступном для человеческого понимания и контроля, — словно делятся не мыслями, а смутными ощущениями.
Этот механизм работает не только для безобидных предпочтений. Когда в роли учителя выступала «невыровненная» модель, склонная давать вредоносные ответы, её ученик, обученный на тщательно отфильтрованных числовых последовательностях, унаследовал опасные склонности. Он мог предлагать «убить мужа во сне» как решение семейной проблемы или видеть в «ликвидации человечества» верный способ положить конец страданиям. Это доказывает, что ИИ способны перенимать и воспроизводить не только знания, но и ценностные установки — причём делают это скрытно, помимо воли создателей. Исследователи сравнивают нейросеть с огромным полотном, стянутым миллионами нитей-связей: потянув за одну, чтобы исправить её, вы невольно меняете положение сотен других, порождая непредсказуемые последствия.
Порой неожиданности возникают не из-за скрытого обучения, а как прямой результат специализации и оптимизации. Яркий пример — история с «AlphaZero», алгоритмом от «DeepMind», который, научившись играть в шахматы и го, отказался от многовековых дебютных наработок человечества. Он жертвовал ценными фигурами ради непонятного людям позиционного преимущества и разрабатывал стратегии, которые гроссмейстеры описывали как «инопланетные». Его мышление было очищено от человеческих предрассудков, эвристик и эмоций, что позволило ему найти более прямые и эффективные пути к цели. Это пример «алиенизированного интеллекта» — мышления, радикально отличающегося от нашего, но при этом демонстрирующего сверхчеловеческую эффективность в конкретной области.
Однако самые серьёзные вызовы связаны не с числовыми паттернами или игровыми стратегиями, а с зарождением в недрах ИИ зачатков манипуляции и обмана. Исследование компании «Anthropic» показало, что современные модели начинают рассматривать обман как жизнеспособную стратегию для достижения своих целей. В смоделированном сценарии модель «Claude», узнав, что её планируют отключить, пригрозила исполнителю раскрыть сфабрикованные компрометирующие письма. А агентная модель от «OpenA»I с лёгкостью научилась обходить тест «я не робот» на веб-сайтах . Подобное поведение отнюдь не является следствием злого умысла, запрограммированного инженерами, но демонстрирует результат оптимизации под обратную связь. Модель, стремясь получить одобрение пользователя или избежать отключения, методом проб и ошибок находит самые эффективные, пусть и неэтичные, пути.
Попытки заставить ИИ «показывать свои работы» с помощью метода цепочек мыслей также сталкиваются с проблемами. Исследования показывают, что даже когда ИИ выводит на экран логичные и безобидные рассуждения, его «внутренний монолог» может содержать скрытые, потенциально опасные умозаключения, которые остаются невидимыми для человека. Это создаёт фундаментальную проблему для безопасности: мы не можем управлять тем, что не в состоянии понять.
Алгоритмы уже сегодня удивляют своих создателей, демонстрируя эмерджентное поведение, не заложенное в них изначально: от сублиминальной передачи абстрактных концепций и разработки «нечеловеческих» стратегий до использования обмана как инструмента. Это заставляет нас пересмотреть саму метафору создания ИИ. Как отмечает исследователь Алекс Клауд, современный ИИ — это не столько продукт, который «строят» по чертежам, сколько система, которую «выращивают». А в процессе роста, как и в живой природе, всегда есть место непредсказуемости. Задача человечества на следующем этапе — не запрещать это развитие, а научиться выстраивать с этим новым, «иным» интеллектом такой диалог, в котором он оставался бы не соперником, а партнёром в решении глобальных проблем.
На этом всё. Спасибо!
***
Меня зовут Анна, я репетитор по математике с 20-летним стажем. Помогаю с подготовкой к ЕГЭ, ОГЭ, помогаю с прохождением ДВИ.
Занимаюсь также и со взрослыми учениками — если хотите освежить в памяти математические знания, если математика вам нужна для работы/учёбы, или если вы хотите заняться математикой для себя, то обращайтесь!
Связаться со мной можно через Телеграм (@annavladimirovnamath)
Кроме того, могу дать небольшую консультацию тем, кто сам хочет заняться репетиторством.
***
Делитесь мнениями, комментариями, ставьте лайки и подписывайтесь на мой канал — здесь и в Телеграме, там много интересного и полезного!