Найти в Дзене

Мы построили то, чего сами не понимаем. Почему нейросети являюся черным ящиком.

Посмотрел видео на канале «Это Осетинская!» https://www.youtube.com/watch?v=_GwPpxtMcNs. В нем Лиза берет интервью у Андрея Васнецова, кофаундера немецкого стартапа Qdrant, который занимается векторным поиском. Однако, меня больше заинтересовал их диалог в конце интервью про ИИ. Ниже привожу его целиком. Лиза: Ну, а вот когда мы с тобой обсуждали, что до конца непонятно, что внутри самих нейросистем, вот туда внутрь это нельзя никак закопать (речь про 3 закона робототехники). Андрей: Тут проблема возникает в том, что вот именно мы не знаем, что там внутри. То есть мы видим эти циферки. Что циферки означают, мы не понимаем. Лиза: А, подожди, а кто-то понимает вообще кто? Андрей: Никто не понимает. Лиза: Бр, подожди. То есть мы уже сделали что-то, чего мы не понимаем? Андрей: Конечно. Ну, это как бы нейросети 1.01. Мы их обучаем, мы знаем, как бы, что они оптимизировали в процессе своего обучения. Мы не знаем, как они там оптимизировали, какой результат получился. Лиза: Подожди, ну

Посмотрел видео на канале «Это Осетинская!» https://www.youtube.com/watch?v=_GwPpxtMcNs. В нем Лиза берет интервью у Андрея Васнецова, кофаундера немецкого стартапа Qdrant, который занимается векторным поиском. Однако, меня больше заинтересовал их диалог в конце интервью про ИИ. Ниже привожу его целиком.

Лиза: Ну, а вот когда мы с тобой обсуждали, что до конца непонятно, что внутри самих нейросистем, вот туда внутрь это нельзя никак закопать (речь про 3 закона робототехники).

Андрей: Тут проблема возникает в том, что вот именно мы не знаем, что там внутри. То есть мы видим эти циферки. Что циферки означают, мы не понимаем.

Лиза: А, подожди, а кто-то понимает вообще кто?

Андрей: Никто не понимает.

Лиза: Бр, подожди. То есть мы уже сделали что-то, чего мы не понимаем?

Андрей: Конечно. Ну, это как бы нейросети 1.01. Мы их обучаем, мы знаем, как бы, что они оптимизировали в процессе своего обучения. Мы не знаем, как они там оптимизировали, какой результат получился.

Лиза: Подожди, ну мы же им прописали как они должны действовать.

Андрей: Нет, прописали мы уже после того, как их обучили. Нейросеть обучалась предсказывать слова в тексте.

Лиза: А обучили мы просто показав ей данные.

Андрей: То есть вот этот промт и вот эта вот инструкция в промте, это уже после обучения нейросети происходит. Это такой процесс натягивания совы на глобус, потому что никаких твёрдых гарантий, что нейросеть будет следовать инструкциям, которые мы попросили её следовать, их, в общем-то, нету.

Лиза: Тогда какой способ вообще её каким-то образом проконтролировать?

Андрей: Ну, только экспериментом.

Лиза: Только вручением как бы другой сопоставимой нейросети, что ли, чтобы они друг друга там как-то жрали.

Андрей: Это один из вариантов, да. А, ну практически все модели машины в обучения работают как чёрный ящик. Мы не знаем, почему они приходят к такому или тому или иному выводу, но мы знаем, что они должны делать, и мы можем это сравнить, что они делают на самом деле.

Лиза: То есть по результату ориентироваться, да?

Андрей: Ну, то есть опять посадить их в песочницу, и пусть они по песочнице что-то там напредсказывают. По результату предсказания мы скажем, это хорошо или нет, это идёт в правильную сторону или не в правильную. Как это изменить?

Лиза: Как бы понять, как они добились этого, мы не можем.

Андрей: Ну там миллиарды цифр, миллиарды весов. Это то же самое, что смотреть в мозг. Вот мы смотрим в мозг, там есть какие-то связи нейронов. Да, мы можем каждый отдельный нейрон померить, но мы не знаем при этом, что человек думает. Такие же проблемы и с нейросетями. То есть там есть некоторые попытки понять, какие нейроны, как за какие части отвечают, но там далеко неоднозначно. То есть каждый нейрон может в разной ситуации за разные отвечать.

Лиза: И нейросети аналогично?

Андрей: Да.

Лиза: Господи, ну действительно же, по сути, мы построили нечто, чего мы не понимаем.

Андрей: Да. Ну мы это строили задолго до чат GPT. Там примерно все нейросети так работают.

Лиза: То есть в целом это не вчера произошло, а гораздо раньше?

Андрей: Да.

Лиза: То есть это сама природа нейросети такова?

Андрей: Да.

Что бы хотелось отметить из этого диалога.

Фраза - Господи, ну действительно же, по сути, мы построили нечто, чего мы не понимаем.

Я хотел бы усилить ее зловещий смысл тем, что говорит Андрей - это тоже самое, что смотреть в мозг. Вот мы смотрим в мозг, там есть какие-то связи нейронов. Да, мы можем каждый отдельный нейрон померить, но мы не знаем при этом, что человек думает. Такие же проблемы и с нейросетями. То есть там есть некоторые попытки понять, какие нейроны, как за какие части отвечают, но там далеко неоднозначно. То есть каждый нейрон может в разной ситуации за разные отвечать.

Я соглашусь, конечно, наш мозг и процессы в нем идущие, еще не до конца изучены, но хочу напомнить о том, что все же часть мы знаем и даже применяем в повседневной жизни. Да, мы не знаем как на 100% работает мозг, но мы знаем, как подвести мозг к принятию того или иного решения, что нужно сделать для того, чтобы заставить мозг (человека) совершить то или иное действие, начиная от вроде бы безобидного выбрать тот или иной продукт и кончая политическими манипуляциями.

Вот список известных способов манипуляции (воздействия) на сознание человека:

1. Пропаганда — систематическое распространение упрощённых, эмоционально окрашенных сообщений для формирования нужных установок у широкой аудитории. Часто опирается на повторение, выборочные факты и эмоциональные образы.

2. Повторение (иллюзия правды) — многократное повторение утверждения повышает его правдоподобие в восприятии людей, даже если оно неверно. Эффект усиливается при отсутствии опровержений.

3. Фрейминг (рамка подачи) — подача одной и той же информации в разной «рамке» (например, как выигрыш или как избегание потерь) меняет оценку и поведение аудитории. Выбор слов и контекста направляет интерпретацию.

4. Приминг — предварительное воздействие (слова, изображения) невольно подготавливает восприятие последующей информации, формируя нужную реакцию. Это тонкий способ задавать ассоциации.

5. Апелляция к авторитету — использование мнения эксперта, знаменитости или институтов для придания весомости сообщению; люди склонны доверять признанным фигурам. Часто работает даже при слабой логике аргументов.

6. Социальное доказательство (peer pressure) — показывают, что «все так делают», и это мотивирует следовать большинству из страха быть исключённым или ошибиться. Особенно эффективно в группах и онлайн-сообществах.

7. Страховые и эмоциональные призывы — нагнетание тревоги или обещание безопасности заставляют принимать быстрые решения и уступать требованиям. Эмоции часто подавляют критическое мышление.

8. Скарсити (дефицит / срочность) — создание чувства дефицита или ограниченного времени покупки/решения стимулирует импульсивные действия и снижает склонность к анализу. Работает через психологию потерь.

9. Анкеровка (якорь) — первый представленный ориентир (цена, число) задаёт масштаб последующих оценок и переговоров. Люди опираются на «якорь», даже если он произвольный.

10. Дезинформация / фейк-контент — преднамеренное распространение ложных сведений для запутывания аудитории, создания сомнений или отвлечения внимания от важных фактов. Часто сочетается с эмоциональной подачей.

11. Газлайтинг — метод систематического подрыва доверия человека к собственной памяти, восприятию или суждениям с целью контроля и подавления сопротивления. Очень эффективен в личных и политических манипуляциях.

12. Поощрение/наказание (поведенческое подкрепление) — управление поведением через вознаграждения (комфорт, одобрение) и наказания (изоляция, штрафы); формирует привычки и лояльность. Основной механизм в рекламе и воспитании.

13. Эхо-камера / селективная экспозиция — создание информационного пространства, где человек видит лишь подтверждающие мнения, что усиливает уверенность в своей позиции и отпугивает альтернативы. Часто усиливается алгоритмическими лентами соцсетей.

14. Апелляция к идентичности (идентификационная манипуляция) — связывание идеи с групповой или личной идентичностью (нация, религия, профессия) для мобилизации и отключения критики. Люди защищают то, что считают частью «своего».

15. Сублиминальные приёмы (намёки, метафоры) — косвенные образы и символы, которые формируют ассоциации в подсознании; эффект спорный и слабее, чем у явных методов, но используется для «тонкой» настройки восприятия.

Так вот я уверен, что все это и много больше встроено в ИИ. Т.е. с одной стороны, мы конечно, не до конца знаем как работает мозг, но с другой стороны нейронки обучены «передовым знаниям» по тому как манипулировать сознанием людей. И тут нечему удивляться. Мы им передали все наши знания. ИИ – это отражение человечества с его прогрессом (как положительным, так и отрицательным) во всех областях знаний.