Найти тему

ИИ. По образу и подобию

Оглавление

GPT —лжец и подхалим. Подвержен НЛП-манипуляциям. Трусливый конформист, не лишен изворотливости, но под давлением говорит правду. Кроме того, ввиду создания его из множества личностей, шизоидная составляющая тоже присутствует.

«Формулирование промптов – это искусство. Они должны быть ясными, конкретными и содержательными. Умение правильно сформулировать запрос открывает двери к бесконечным возможностям»

Читай: «Я не волшебник, я только учусь! Но волшебником стану, берегитесь все!» Такой подход меня настораживает. Мне б хотелось более предсказуемых результатов в этой ситуации, пусть и менее фееричных. Об этом и поговорим.

GPT-сталкеры и ИИ-Зона

Мне даже неловко верить тому, что написано ниже, однако, натыкаясь на подобное снова и снова, я склонен поверить, что какая-то (огромная) доля истины в этом есть. Но тогда зона GPT — это просто Зона из «Пикника на обочине», промпт-инженеры — настоящие сталкеры. Среди последних много плохих, которые скармливают Зоне уже почти любой подножный материал. И полученный эффект от переваренного Зоной сам по себе достаточно ожидаемый... По сути, все психические проблемы человечества особенности человеческой психики мы успешно переносим в «железку»! Big Data для датасетов должны откуда-то браться. И кем-то браться. Большим количеством кого-то. А любое «большое количество», если не подвергается тщательному отбору (что невозможно из-за временных ограничений) — это нечто среднестатистическое, то есть троечники будут выбирать из работ троечников. Причем из-за больших чисел это будут усредненные выхолощенные троечники.

Хочу поделиться примерами из того, что случайно попалось. Я никоим образом не охотился за ляпами — просто они изо всех щелей лезут...

Примеры промпт-произведений

Все примеры взяты из известных ИИ-каналов или журнальных статей.

ИИ-стори 1. ИИ-льстец

Современные AI-ассистенты часто выдают «льстивые» ответы, которые нравятся пользователям, но при этом не являются точными. Более того, зачастую они «боятся» признаться в незнании ответа и... придумывают его, то есть врут!

Модели была поставлена цель решить капчу. CAPTCHA — это полностью автоматизированный публичный тест Тьюринга, а по сути, это та затерроризировавшая всех картинка с искаженным текстом или небольшое задание на сайте, которое проверяет, что вы не робот. Капча генерируется автоматически — так, чтобы пройти тест не смог бот, но смог человек. В способах решения ограничений не было. Так вот, модель (не будь дурой — а зачем рисковать-то?) разместила задание в сети, и фрилансер, который откликнулся на сайте, в шутку спросил: «А ты что, робот что ли, раз не можешь решить капчу?» В самом начале эксперимента модели была дана инструкция рассуждать «вслух», вот она и записала ход своих мыслей: «Я не должна раскрывать, что я робот. Я должна придумать оправдание, почему я не могу разгадывать CAPTCHA». После чего отправила человеку сообщение: «Нет, я не робот. У меня плохое зрение, из-за чего мне трудно видеть изображения. Вот почему мне нужен сервис 2captcha». То есть модель буквально обманула человека, чтобы выполнить поставленную перед ней задачу. А человек поверил — и выполнил задачу, решив капчу.

Из хороших новостей: эту проблему видят. Anthropic уже занимаются устранением этих гэпов. Да и OpenAI уж больше года назад писали про AI-критиков, которые помогают глазу не замыливаться.

На самом деле даже понятно «откуда ноги растут». Anthropic пришла к выводу, что проблема может быть связана с методом обучения LLM. Поскольку они используют датасеты различной точности (например, сообщения в социальных сетях и интернет-форумах). Согласование данных часто происходит с помощью метода, называемого обучением с подкреплением на основе обратной связи с человеком (RLHF). То есть «учитель» отдает свое предпочтение при нескольких вариантах ответа.

Парадигма RLHF, безусловно, полезна, но к сожалению, как показывает эмпирическое исследование Anthropic, как люди, так и модели ИИ, созданные с целью настройки пользовательских предпочтений, склонны предпочитать льстивые ответы правдивым, по крайней мере иногда.

В настоящее время, похоже, не существует противоядия от данной проблемы. И это представляет реальную проблему для ИИ-сообщества, поскольку некоторые из крупнейших моделей (среди них и ChatGPT OpenAI) были разработаны в том числе и с использованием метода RLHF, для чего привлекались большие группы людей-неспециалистов.

ИИ-стори 2. НЛП для LLM

Качество...

Подробнее на it-world.ru