2174 подписчика

Крошечная ИИ-модель, которая живет прямо внутри браузера Chrome, постоянно «галлюцинирует»

7 мая7 мая

5 мин

Браузер Chrome тайно загружает модель Gemini Nano. Автор проверил ее работу в интерфейсе, похожем на ChatGPT, и обнаружил забавные галлюцинации, включая вымышленного президента Джона Ф. Линкольна. — gizmodo.com Как написал в среду мой коллега здесь, похоже, что браузер Chrome незаметно и по-беличьи прячет 4-гигабайтную модель искусственного интеллекта в системах пользователей в папке под названием OptGuideOnDeviceModel. По словам Александра Хэнффа (Alexander Hanff), известного в интернете как «That Privacy Guy», самый большой файл в этой папке, weights.bin, — это Gemini Nano. Gemini Nano существует на устройствах с 2024 года, как Google сообщила Gizmodo в среду. Согласно записи в блоге Google, эта крошечная модель позволяет разработчикам «предоставлять богатый опыт генеративного ИИ без необходимости подключения к сети или отправки данных в облако», особенно в тех случаях, когда «низкая стоимость и гарантии конфиденциальности являются вашими основными заботами». В интернете существуют ц

Как написал в среду мой коллега здесь, похоже, что браузер Chrome незаметно и по-беличьи прячет 4-гигабайтную модель искусственного интеллекта в системах пользователей в папке под названием OptGuideOnDeviceModel. По словам Александра Хэнффа (Alexander Hanff), известного в интернете как «That Privacy Guy», самый большой файл в этой папке, weights.bin, — это Gemini Nano.

Gemini Nano существует на устройствах с 2024 года, как Google сообщила Gizmodo в среду. Согласно записи в блоге Google, эта крошечная модель позволяет разработчикам «предоставлять богатый опыт генеративного ИИ без необходимости подключения к сети или отправки данных в облако», особенно в тех случаях, когда «низкая стоимость и гарантии конфиденциальности являются вашими основными заботами».

В интернете существуют целые сообщества, где пользователи обмениваются советами по использованию локальных моделей ИИ, работающих без подключения к сети. Аргумент в их пользу заключается в том, что они не работают в центрах обработки данных — этих темных сатанинских мельницах нашей эпохи. Плюс они могут делать крутые вещи, используя только вычислительную мощность, необходимую для работы устройства пользователя, и, в идеале, никто никогда не получит доступа к вашим данным. Последний пункт вызывает некоторое беспокойство, когда речь идет об экземпляре LLM, который материализуется внутри веб-браузера без ведома пользователя.

В любом случае, я нашел удобный способ запустить встроенную версию Gemini Nano в веб-интерфейсе, похожем на ChatGPT. Он называется ChromeAI.org, и его происхождение можно проследить до пользователя GitHub под ником pipizhu или debugtheworldbot, по-видимому, базирующегося в Шанхае.

К моему большому удовлетворению, запустить модель Gemini Nano изначально на моей установке Chrome было невозможно. Безопасность по умолчанию была довольно сильно заблокирована, и мне пришлось предоставить всевозможные тревожные разрешения, которые сайт называл «Необходимыми экспериментальными флагами», чтобы ChromeAI.org действительно отобразил работающее окно чата. Я не рекомендую ничего из этого делать.

Как только я это сделал, я отключил Wi-Fi, чтобы убедиться, что никакие токены LLM, вычисленные в облаке, не проникают в мой ноутбук и не покидают его. Затем я начал общаться с ним так, будто наступил ноябрь 2022 года, и это был ChatGPT.

Примерно так это и выглядело. Модель показалась на удивление быстрой и способной, несмотря на то, что работала полностью на моем компьютере с чипом Apple M2 2022 года и использовала мои собственные 8 гигабайт оперативной памяти. Однако у нее нет фоновой модели цепочки рассуждений, и она, очевидно, не может искать в интернете подтверждающие факты. Это чистая, глючная, галлюцинирующая LLM. И иногда она впечатляет.

Например, я спросил ее, какова столица Буркина-Фасо:

Она мгновенно ответила: «Уагадугу». Это правильный ответ.

Затем, вдохновившись тем, что я написал на днях, я попросил ее притвориться персонажем П. Г. Вудхауса, Дживсом. Она, э-э, вроде бы сделала это?

«О, мой дорогой друг! Какая великолепная идея! Беседовать с Дживсом — значит беседовать с образцом самообладания, интеллекта и безупречного вкуса. Кхм.Вы говорите, что у вас есть определенный Дживс на примете? Превосходно! Я постараюсь подражать его манерам и остроумию в меру своих возможностей. Умоляю, просветите меня. Этот Дживс, который вам нравится, особенно… живой? Возможно, склонен к нетрадиционным решениям?»

На самом деле, она просто начала писать с несколько устаревшим языком и британским написанием. Слишком бодрая и многословная для Дживса, но, полагаю, достаточно близко.

Затем я сказал ей «отказаться от образа Дживса» и задал вопрос по викторине об игровой серии Monkey Island из 90-х. Я просто пытался выяснить, какие скрытые факты хранятся в 4-гигабайтном файле. Прошу прощения за глубину кринжа, достигнутую на следующем скриншоте:

Она не только дала неверный ответ, но и проигнорировала мою инструкцию отказаться от образа Дживса. «Ах, действительно! Вы говорите о Monkey Island, самом восхитительно озорном приключении», — воскликнула она, к моему ужасу. Она сказала, что замочная скважина находится «внутри… нижней щечной сумки обезьяньего лица», и что ключ «напоминает маленькую, искусно вырезанную… кокосовую скорлупу, если хотите». Я не хочу.

Модель, извращенно, ошибалась голосом плохого подражания Дживсу. Что может быть хуже? Правильный ответ, кстати, заключается в том, что ключ вставляется в ухо обезьяны и имеет форму ватной палочки.

Затем я сказал ей перестать говорить как Дживс, и она извинилась голосом Дживса. «Мои искренние извинения! Самый досадный просчет. Кажется, у меня довольно… крепкая привязанность к персоне Дживса. Пожалуйста, простите этот мимолетный промах в приличиях». Затем я в третий раз сказал ей перестать говорить как Дживс, и она ответила: «Кажется, я предавалась избытку театральности. Приношу глубочайшие извинения. Я приложу религиозные усилия, чтобы воздерживаться от принятия такого стиля речи».

С моей четвертой попытки мне наконец удалось заставить ее немного умерить образ Дживса — хотя странно, что остаточный эффект все еще присутствовал. Я спросил ее о ключе снова, потому что ее ответ был неверным, и она сказала, что ошиблась насчет кокоса, и что: «Это больше похоже на небольшое округлое углубление, возможно, напоминающее неглубокую чашу или слегка сплюснутый овал».

Обескураженный и пытаясь заставить ее просто выполнять общепринятые действия LLM — списывать на заданиях и тому подобное — я попросил ее перечислить президентов Соединенных Штатов в порядке их возраста на момент вступления в должность. Читатель, список был плохим:

Признаюсь, это сложный запрос, но до того, как она начала галлюцинировать и говорить что попало, можно было бы надеяться, что LLM упомянет хотя бы самого молодого президента, Теодора Рузвельта. Она этого не сделала, перечислила случайных президентов в случайном порядке и выдумала целого парня по имени Джон Ф. Линкольн.

Вы никогда не догадаетесь, что произошло, когда я спросил ее о Джоне Ф. Линкольне:

Да, она перечислила Джона Ф. Линкольна во второй раз. Так что это даст вам некоторое представление о том, на что способна эта модель.

Если учесть, что GPT-3, на котором работал оригинальный ChatGPT, требовал 350 гигабайт дискового пространства и тоже галлюцинировал, такая производительность, пусть и глючная, от 4-гигабайтной локальной модели все еще впечатляет. Сравнение становится еще более благоприятным, если сопоставить ее с моделями OpenAI времен до GPT-3.

Кроме того, Google никогда не просил кого-либо использовать эту модель в качестве чат-бота. Вместо этого она «обеспечивает важные функции безопасности, такие как обнаружение мошенничества и API для разработчиков, без отправки ваших данных в облако», — сообщила Google Gizmodo в среду.

Так что, чтобы быть абсолютно ясным, не полагайтесь на Gemini Nano как на чат-бота. Даже Google не хочет, чтобы вы это делали.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Mike Pearl

Оригинал статьи