216 подписчиков

🎶 Почему современные нейросети вдруг заговорили на византийском?

5 апреля 20255 апр 2025

3 мин

Когда я впервые увидел заголовок статьи «Почему Claude говорит на византийской музыкальной нотации?», я подумал, что это какая-то хитрая первоапрельская шутка. Оказалось, всё гораздо интереснее. Это удивительная история о том, как нейросети вроде Claude и GPT-4o внезапно стали свободно читать и писать скрытые сообщения с использованием крайне необычной кодировки — византийской музыкальной нотации. Но как это вообще возможно? Давайте разбираться. 🧩 В чём суть необычного явления? Обычно нейросети обучают на огромных объёмах текста, включая всевозможные шифры и кодировки. Например, простейший Цезарь-шифр — это просто сдвиг каждой буквы алфавита на фиксированное число символов. Современные нейросети легко справляются с такими шифрами, особенно если они встречались в обучающих данных. Но византийская музыкальная нотация — совсем другая история. Это редкий и малоизвестный блок Unicode (U+118784–U+119029), предназначенный для записи древних византийских церковных мелодий. Как же нейросеть см

Оглавление

🔍 Как работает византийский «шифр» в Claude и GPT-4o?
💡 Почему это важно и интересно?
🔮 Как это может использоваться на практике?

Но как это вообще возможно? Давайте разбираться.

🧩 В чём суть необычного явления?

Обычно нейросети обучают на огромных объёмах текста, включая всевозможные шифры и кодировки. Например, простейший Цезарь-шифр — это просто сдвиг каждой буквы алфавита на фиксированное число символов. Современные нейросети легко справляются с такими шифрами, особенно если они встречались в обучающих данных.

Но византийская музыкальная нотация — совсем другая история. Это редкий и малоизвестный блок Unicode (U+118784–U+119029), предназначенный для записи древних византийских церковных мелодий. Как же нейросеть смогла освоить его?

🔍 Как работает византийский «шифр» в Claude и GPT-4o?

Исследование, опубликованное на сайте «Fiefdom of Files», объясняет этот феномен удивительной особенностью работы современных нейросетевых моделей:

🎯 1. Цезарь-шифр в Unicode:
Если обычный Цезарь-шифр сдвигает буквы алфавита, то в данном случае сдвигаются сами Unicode-значения символов. Сдвиг на 118784 символов приводит обычный текст (например, букву "a") в диапазон византийских музыкальных символов.

🔗 2. Токенизация и линейность:
Оказалось, что в некоторых токенизаторах (например, популярный o200k), определённые диапазоны Unicode символов кодируются строго линейно. Проще говоря, между символами есть чёткая арифметическая последовательность, благодаря которой нейросеть может легко распознавать и восстанавливать исходный текст.

⚙️ 3. Почему это сработало именно здесь?
Дело в том, что некоторые византийские символы идеально легли в токенизатор. Они кодируются тремя токенами, причём первые два всегда одинаковы, а третий токен линейно увеличивается с ростом значения символа. Именно это позволило моделям вроде Claude быстро «понять» необычный сдвиг и использовать его так же легко, как обычный Цезарь-шифр.

💡 Почему это важно и интересно?

Лично меня эта история зацепила сразу по нескольким причинам:

🔸 🤖 Неожиданное поведение моделей:
Мы привыкли, что нейросети хорошо справляются с привычными задачами, но случай с византийскими символами показывает, что модели порой демонстрируют способности, которые удивляют даже разработчиков.

🔸 🔎 Тонкости токенизации:
История подчёркивает, насколько важно учитывать особенности токенизатора при создании и обучении моделей. Маленькие детали, вроде арифметической линейности кодировки, могут привести к неожиданным эффектам.

🔸 📖 Влияние обучающих данных:
Появляется вопрос: где именно нейросети встречали такие странные кодировки? Возможно, в интернете есть неочевидные тексты или случайные утечки данных, на которых модели и обучились таким уникальным способностям.

🔮 Как это может использоваться на практике?

Хотя история кажется просто забавным казусом, она поднимает важные вопросы о безопасности и надёжности нейросетей:

🔐 Защита данных:
Использование необычных кодировок может стать новым подходом для сокрытия информации от автоматических систем анализа.

🛡️ Обнаружение уязвимостей:
Понимание таких неожиданных способностей моделей позволяет разработчикам выявлять потенциальные риски и заранее устранять их.

🎲 Игровые и творческие проекты:
Возможность использовать редкие Unicode-символы может вдохновить разработчиков на создание новых игровых механик или загадок.

🚩 Заключение

История о том, как Claude и GPT-4o заговорили на византийском — это напоминание о том, как мало мы на самом деле знаем о работе современных нейросетей. И порой они преподносят нам такие сюрпризы, которые заставляют задуматься: а что ещё мы не заметили?

Я лично буду внимательно следить за новыми исследованиями в этой области, потому что такие открытия вдохновляют искать дальше и глубже. Кто знает, какие ещё «византийские тайны» скрывают нейронные сети?

🔗 Полезные ссылки:

📌 Оригинальная статья про Claude и византийскую нотацию
📚 Описание византийской музыкальной нотации (Wikipedia)
🛠️ Токенизатор o200k — пример популярного токенизатора для GPT-моделей