Добавить в корзинуПозвонить
Найти в Дзене
Цифровая Переплавка

🗓️ Тайна пропавшего 11-го числа: когда типографика ломает данные

Каждый из нас имеет любимые даты, с которыми связаны праздники, события, памятные моменты. Но что если одна из таких дат почти «исчезла» из нашего внимания? Автор Дэвид Хаген заметил удивительную закономерность: число «11» практически всегда упоминается реже, чем другие даты в календаре. Эта аномалия была обнаружена благодаря графику популярности дат из комикса xkcd и подтвердилась глубоким статистическим анализом на данных Google Ngrams. 🔍 Загадка, скрытая в шрифтах На первый взгляд казалось, что 11-е число — просто малопопулярная дата, и ничего особенного тут нет. Но тщательный анализ показал, что 11-е действительно упоминалось значительно реже по сравнению с другими числами, причём задолго до трагического 11 сентября 2001 года, которое, казалось бы, могло повлиять на частоту упоминаний этой даты. Причина же оказалась до смешного простой и вместе с тем невероятно интересной: ошибки в распознавании текста алгоритмами Google. 🖨️ Типографские войны: цифра или буква? Чтобы понять, поче
Изометрический календарь на тёмно-синем фоне: между датами «10» и «12» искажённый неоновый «11» будто стирается; вокруг — график Ngrams с провалом и винтажные клавиши пишущей машинки с цифрой «1», подчёркивающие типографическую причину «пропажи» 11-го числа.
Изометрический календарь на тёмно-синем фоне: между датами «10» и «12» искажённый неоновый «11» будто стирается; вокруг — график Ngrams с провалом и винтажные клавиши пишущей машинки с цифрой «1», подчёркивающие типографическую причину «пропажи» 11-го числа.

Каждый из нас имеет любимые даты, с которыми связаны праздники, события, памятные моменты. Но что если одна из таких дат почти «исчезла» из нашего внимания? Автор Дэвид Хаген заметил удивительную закономерность: число «11» практически всегда упоминается реже, чем другие даты в календаре. Эта аномалия была обнаружена благодаря графику популярности дат из комикса xkcd и подтвердилась глубоким статистическим анализом на данных Google Ngrams.

🔍 Загадка, скрытая в шрифтах

На первый взгляд казалось, что 11-е число — просто малопопулярная дата, и ничего особенного тут нет. Но тщательный анализ показал, что 11-е действительно упоминалось значительно реже по сравнению с другими числами, причём задолго до трагического 11 сентября 2001 года, которое, казалось бы, могло повлиять на частоту упоминаний этой даты.

Причина же оказалась до смешного простой и вместе с тем невероятно интересной: ошибки в распознавании текста алгоритмами Google.

🖨️ Типографские войны: цифра или буква?

Чтобы понять, почему так произошло, нужно вспомнить об особенностях ранних печатных машинок. На них не было отдельной клавиши для цифры «1». Вместо неё печатники использовали маленькую букву «l» (эль), а иногда даже прописную «I» (ай). Со временем даже печатные шрифты начали подстраиваться под эту особенность машинописи, делая символы «1», «l» и «I» практически идентичными.

Таким образом, алгоритм Google, который сканировал миллионы печатных текстов, начал путаться, считывая цифру «11» как набор символов:

  • 🔤 IIth (две прописные «I»);
  • 📝 llth (две строчные «l»);
  • 📖 lith и даже iith.

Но самым загадочным оказался тот факт, что часто алгоритм распознавал «11th» как «nth». Это странное сочетание особенно распространено в математических и технических текстах (например, обозначение n-го элемента последовательности).

📊 Исследование и статистика Ngrams

Автор не поленился, погрузившись в исходные данные Google Ngrams, и написал специальный программный код (доступный на GitHub), который позволил выявить истинный масштаб проблемы. Оказалось, что после исправления ошибок распознавания частота упоминания 11-го числа выравнивалась и переставала быть аномалией.

Особенно интересным стало то, как менялась частота ошибки с развитием печатной индустрии:

  • 🕰️ До 1860-х годов ошибки встречались редко.
  • 🖨️ 1860–1930-е годы — пик ошибок, связанный с массовым внедрением пишущих машинок без отдельной клавиши «1».
  • 📉 После 1930-х годов ошибки стали реже благодаря улучшению типографики, но полностью не исчезли даже в наше время.

💡 Личное мнение автора статьи

Эта история показывает, насколько сильное влияние оказывают мелкие типографские детали на восприятие и статистику в цифровую эпоху. Мы привыкли доверять алгоритмам и огромным наборам данных, забывая, что даже малейшие типографические особенности способны породить огромные статистические искажения.

Меня лично поразило, насколько глубоким может быть влияние простой технической особенности, вроде отсутствия отдельной клавиши для цифры на старой печатной машинке, на цифровые алгоритмы XXI века. Это великолепный пример того, как мелочи могут формировать глобальные тренды и даже забавные статистические загадки.

🔖 Что дальше?

Автор исследования предлагает нам всем задуматься: сколько ещё таких статистических аномалий и ошибок может скрываться в гигантских цифровых массивах, которыми мы ежедневно пользуемся? Возможно, стоит внимательнее относиться к данным и периодически «проверять их на прочность» с помощью независимого анализа.

🛠️ Дополнительные материалы и исходники анализа:

Эта история — яркое напоминание о том, что даже цифры могут «лгать», если неправильно их прочитать.