1914 подписчиков

Claude Code сканирует ваши сообщения на наличие нецензурной лексики

1 апреля1 апр

3 мин

«Какого черта?» «Черт возьми!» «Теперь я действительно раздражен». Все мы ругались на неуклюжего ИИ-помощника, но оказалось, что один из самых популярных инструментов Claude активно проверяет наши сообщения на наличие определенных признаков расстройства — в том числе нецензурных выражений. Это открытие — одна из многих поразительных деталей, ставших известными в результате масштабной утечки исходного кода Claude […] — pcworld.com «Какого черта?» «Черт возьми!» «Теперь я действительно раздражен». Все мы ругались на неуклюжего ИИ-помощника, но оказалось, что один из самых популярных инструментов Claude активно проверяет наши сообщения на наличие определенных признаков расстройства — в том числе нецензурных выражений. Это открытие — одна из многих поразительных деталей, ставших известными в результате масштабной утечки исходного кода Claude, которая раскрыла многие планы Anthropic относительно ее будущих инструментов и моделей. Более 500 000 строк кода, которые Anthropic случайно опублико

«Какого черта?» «Черт возьми!» «Теперь я действительно раздражен». Все мы ругались на неуклюжего ИИ-помощника, но оказалось, что один из самых популярных инструментов Claude активно проверяет наши сообщения на наличие определенных признаков расстройства — в том числе нецензурных выражений.

Это открытие — одна из многих поразительных деталей, ставших известными в результате масштабной утечки исходного кода Claude, которая раскрыла многие планы Anthropic относительно ее будущих инструментов и моделей. Более 500 000 строк кода, которые Anthropic случайно опубликовала в публичном реестре программного обеспечения во вторник, содержат множество любопытных подробностей, включая спецификации новых моделей Claude, «режим скрытности» для Claude, позволяющий ему делать «тайные» вклады в общедоступные кодовые базы, постоянно работающего агента для Claude Code и даже «приятеля» (Buddy) для Claude в стиле Тамагочи.

Но одна из самых странных деталей, обнаруженных в утечке, заключается в том, что Claude Code активно отслеживает наши чат-сообщения на предмет слов и фраз — включая нецензурную брань и другие ругательства, — которые служат признаками расстройства пользователя.

В частности, Claude Code содержит файл под названием «userPromptKeywords.ts» с простым инструментом сопоставления с образцом, называемым regex, который сканирует каждое сообщение, отправленное в Claude, на предмет определенных текстовых совпадений. В данном конкретном случае шаблон regex ищет «wtf», «wth», «omfg», «dumbass», «horrible», «awful», «piece of —-” (вставьте сюда ваше любимое ругательство из четырех букв), «f— you», «screw this», «this sucks» и несколько других красочных метафор.

Следует уточнить, что эта функция поиска «ругательных слов» была обнаружена конкретно в Claude Code в результате утечки Anthropic. Код для настольных и веб-приложений Claude не вошел в утечку, поэтому мы не знаем, что происходит «под капотом» этих интерфейсов Claude.

Стоит также отметить, что используемая здесь функция regex не является чем-то сложным. Действительно, regex поддерживается широким спектром языков программирования (от Java до Python) и используется десятилетиями, а ее функциональность не сильно отличается от обычного Ctrl-F.

Хотя утечка кода Claude выявила существование regex для «слов расстройства», она не дает никаких указаний на то, почему Claude Code сканирует сообщения на наличие этих слов и что он с ними делает.

Я обратился в Anthropic за комментариями.

Конечно, мы можем догадываться. Одна из вероятных причин заключается в том, что Anthropic собирает телеметрию, чтобы помочь определить, насколько хорошо работают конкретные модели и инструменты Claude. Рост числа обнаруженных «слов расстройства» был бы простым способом заметить, если новая функция Claude воспринята плохо.

Другая возможность заключается в том, что всплеск обнаруженных сигналов расстройства может вызвать изменения в поведении самого Claude, возможно, сделав его более чутким или извиняющимся. Конечно, ругань в адрес Claude или любого другого ИИ, как правило, направляет чат в другом направлении (как это было с результатами поиска Google), но специальная проверка regex, подобная той, что есть в Claude Code, может помочь сделать поведенческий поворот более надежным.

Хотя regex для «слов расстройства» подтвержден только для Claude Code, это заставляет задуматься, существует ли он в настольных и веб-приложениях Claude — или же ChatGPT, Gemini и другие крупные игроки в сфере ИИ хранят аналогичные функции в своих кодовых базах.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Ben Patterson

Оригинал статьи