Найти в Дзене
Эпонимы и Мы

ПРОБЛЕМА СКАНТОРПА

Помню, на каким-то крупных международных соревнованиях диктор вдруг будничным голосом произнёс: "Сейчас на помост выходит китайский спортсмен, фамилию которого по этическим соображениям мы не можем произнести". Я был, честно говоря, поражён такой откровенностью, и долго гадал, что же это за фамилия такая - нецензурная, поди? Потом я узнал, что если в иностранных языках встречается слово, которое к нас однозначно трактуется как мат, обычно выходят из положения, просто меняя буквы в этом слове, чтобы получалось не так оскорбительно. Но это решает человек. А как с подобной задачей справляется машина? Да никак. Запрограммировали её не пропускать нехорошие слова в тексте - вот она и не разрешает размещать на сайте материал с такими сочетаниями букв. Вроде бы и правильно, однако в итоге блокируются такие конструкции как "три рубля дьяволу на чай", "новые батники", "окапи здесь не водятся" или "почему да как". Возможно, оно тоже правильно - чтобы не хулиганили так, как в песне "Ах, уехал мо

Помню, на каким-то крупных международных соревнованиях диктор вдруг будничным голосом произнёс: "Сейчас на помост выходит китайский спортсмен, фамилию которого по этическим соображениям мы не можем произнести". Я был, честно говоря, поражён такой откровенностью, и долго гадал, что же это за фамилия такая - нецензурная, поди?

Потом я узнал, что если в иностранных языках встречается слово, которое к нас однозначно трактуется как мат, обычно выходят из положения, просто меняя буквы в этом слове, чтобы получалось не так оскорбительно.

Но это решает человек. А как с подобной задачей справляется машина? Да никак. Запрограммировали её не пропускать нехорошие слова в тексте - вот она и не разрешает размещать на сайте материал с такими сочетаниями букв. Вроде бы и правильно, однако в итоге блокируются такие конструкции как "три рубля дьяволу на чай", "новые батники", "окапи здесь не водятся" или "почему да как".

Возможно, оно тоже правильно - чтобы не хулиганили так, как в песне "Ах, уехал мой любимый". Но на самом деле, это заметно суживает пространство для писательского манёвра. И, главное, ставит его в подчинение бездушной компьютерной программе!

Оказывается, с подобной несправедливостью сталкиваются и в других странах. Более того, даже существует специальный эпоним - ПРОБЛЕМА СКАНТОРПА, то есть блокировка онлайн-контента на программном уровне поисковой системой или спам-фильтром только по причине "непристойного сочетания букв".

-2

Собственно, название проблемы дано в честь английского города Сканторт (Scunthorpe), что в Северном Линкольншире. В 1996 году внезапно выяснилось, что фильтр ненормативной лексики AOL не позволяет людям написать это слово в поисковой строке - потому что, оказывается, там есть сочетание букв cunt, которое в английском лексиконе является вульгарным словом, которое у русских пишется через пять букв и обозначает женский половой орган.

Позже выяснилось, что другие фильтры рубят на корню целый ряд других слов и названий.

Например, в 1998 году некто Джефф Голд не смог зарегистрировать доменное имя shitakemushrooms.com, потому что в нём есть слово shit, а его очень не любит фильтр InterNIC. Аналогичная проблема возникла у Германа Либшица (Herman I. Libshitz), которому программа Version даже не разрешила войти в число исключений.

-3

В 2000 году оказалось, что веб-сайт www.cum.qc.ca городского сообщества канадского города Монреаль (Communauté Urbaine de Montréal) тоже заблокирован, поскольку новый фильтр распознал в его составе неприличное слово cum (на вульгарном сленговом английском языке это означает сперму).

Между прочим, жителям английского города Клитроу (Clitheroe) тоже не сладко, потому что в этом названии присутствует clit, что бездушная система расценивает как сокращение от слова клитор. А уж каково обитателям городка Пенистон (Penistone) в Южном Йоркшире! Им крайне проблематично даже зарегистрировать электронную почту, ибо сторонние фильтры тут же видят в этом другое пикантное слово.

-4

В 2004 году некто Крейг Кокберн (Craig Cockburn) из Шотландии заявил, что поскольку его фамилия содержит сленговое слово cock (пенис), у него регулярно возникают проблемы с фильтром. И придётся менять либо то, либо другое.

В том же году выяснилось, что многие библиотечные интернет-станции, школьные сети и интернет-кафе блокируют сайты со словом «секс» в доменном имени, и это полное безобразие, учитывая, какое количество интернет-ресурсов содержит название графства Сассекс (например - RomansInSussex.co.uk).

Аналогичный треш случился с использованием римских цифр XXX - его фильтры тут же распознали как "порно-контент", хотя это всего лишь 30.

-5

И так далее, и тому подобное. Одни фильтры боятся мужского имени Дик, потому что подозревают в нём какую-то похабщину, другие - женского имени Куна. А что самое неприятное, желание угодить всем подряд и не затронуть ничьих чувств приводит к обратному эффекту, ибо если взять все языки, которые существуют, обязательно окажется, что любое сочетание букв из одного языка будет обозначать что-то нехорошее на другом. С последующей блокировкой, разумеется.

Поможет ли решить ПРОБЛЕМУ СКАНТОРПА искусственный интеллект? Будем надеяться, что да.

Что же касается этимологии слова СКАНТОРП, то это не фамилия и не имя, а название города. Но! Раньше этот населённый пункт именовался как ЭСКУМСТОРП - от древнескандинавского Skumasþorp, что означает «усадьба Скумы».

А это как бы намекает на то, что когда-то здесь жил некий Скума.

Но кем был этот человек (да и человек ли это вообще), вряд ли теперь кто-либо расскажет...

Вы можете поддержать канал, перечислив любую доступную вам сумму на кошелёк ЮMoney 4100 1102 6253 35 (или на карту Райффайзенбанка 2200 3005 3005 2776). И поучаствовать в создании книги по материалам этих статей. Заранее всем спасибо!