Представьте. Сейчас 1997 год. Вы носите то, что носили тогда люди —наверное, джинсовую куртку, — и разговариваете со своим другом о новом любимом фильме Майка Майерса «Остин Пауэрс». Вы цитируете фильм и вдруг понимаете, что ваш друг говорит об актёре, которого в фильме не было. Вы начинаете спорить, но ваш друг непреклонен. Чтобы разрешить этот спор и спасти то, что осталось от вашей дружбы, вы включаете свой 41-килограммовый компьютер и сорок минут спустя попадаете в интернет.
Теперь возникает вопрос: куда вы идете дальше? Как до Google люди разрешали глупые споры и/или находили другую информацию? На этот вопрос отвечают эксперты
Доцент кафедры информатики Техасского университета в Остине, чьи исследования связаны с появлением, стандартизацией и сохранением новых информационных объектов в мобильных и социальных медиа-платформах
Google Search доминирует более чем на 90% рынка, который включает в себя поисковые системы, такие как Yahoo, Bing и DuckDuckGo, ориентированные на конфиденциальность. Но до того, как персонализированный, управляемый рекламой алгоритм поиска Google захватил почти все, что мы можем найти в интернете, существовали каталоги веб-сайтов и индексированные поисковые системы, которые собирали веб-ресурсы по темам.
Самые ранние веб-поисковые системы были каталогами веб-сайтов, курируемых людьми. Эти веб-онтологи (Yahoo называла их “серферами”) читали все веб-страницы по конкретным темам, а затем оценивали их. В конце концов эта управляемая человеком модель категоризации была заменена обходом веб-сайтов ботами (иногда называемыми пауками), а затем ранжированием веб-сайтов по их надежности и релевантности для различных видов поисковых запросов.
В начале 1990-х годов было около двадцати различных поисковых систем на выбор, включая WebCrawler, Lycos, AltaVista и Wandex. Подобно библиотечным каталогам, эти индексы поисковых систем были составлены и организованы по темам, содержанию, структуре и тематике. Ранние поисковые системы были разработаны таким образом, чтобы пользователи могли перемещаться по связкам гиперссылочных ресурсов в различных категориях высокого уровня, таких как «новости», «путешествия», «спорт» и «бизнес».
Столбцы широких категорий, набитые синими гиперссылками для пользователей на выбор, делали ранние страницы поисковой системы похожими на переполненный индекс в конце учебника.
Важно помнить, что в 1990-е годы поиск в интернете имел разные цели и стимулы для людей «серферов». В ранних сетевых культурах поиск факта или продукта не всегда был целью поиска. Вместо этого поисковые системы помогали людям находить и исследовать цифровые ресурсы и пользоваться всемирной паутиной.
Веб-поиск в 1990-х годах имел меньший таргетинг на рекламу и давал пользователям больше контроля для изучения, даже если результаты были рудиментарными и не всегда надежно отфильтровывали порнографию. По сравнению с сегодняшним опытом поиска, ранний поиск в интернете был больше похож на поисковый опыт. Под «поисковым опытом» я подразумеваю активную роль в навигации и поиске контента, в том смысле, что персонализированный, кураторский поиск с таких платформ, как Google и Facebook, в значительной степени узурпировал целевую рекламу аудитории.
Позвольте мне привести вам пример авантюрной ранней поисковой экспедиции в интернете. Было время, когда поиск текстов песен для «Small Town Boy» мог привести вас к поиску первой немецкой фан-страницы Джимми Сомервиля. В наши дни, если вы ищете текст песни, Google будет извлекать текст песни с такого сайта, как LyricFind.com. Когда вы переходите от опыта поиска к точному, алгоритмическому опыту, поиск становится рутинным и относительно предписывающим. Вы можете получить именно то, что хотите с помощью Google Search, но вы, скорее всего, потеряете много счастливых функций и доступа к странному, неоднородному контенту, который сделал ранний веб таким увлекательным и захватывающим для изучения.
Сегодня, когда мы говорим о «поиске», мы обычно не думаем о просмотре индексов или посещении веб-страницы. Вместо этого мы думаем о прокрутке и пролистывании информации из каналов и приложений, которые объединяют множество различных материалов и профилей пользователей в один поток. Или, может быть, мы ожидаем, что точный ответ будет подан в виде извлеченного фрагмента информации из онлайн-ресурса.
Большинство современных функций поиска, особенно поиск на таких платформах, как Facebook, Amazon или App Store, еще больше монетизировали этот процесс. Собирая все больше и больше пользовательских данных до такой степени, что они отслеживают поведения пользователей (поисковые запросы или привычки просмотра), нам предлагают воспользоваться более важными услугами. Когда мы спрашиваем себя, что мы потеряли, рассматривая эти более ранние поисковые системы, мы должны попытаться представить себе все возможности, которые мы закрыли, предоставив монополию на поиск онлайн-цифровой информации во всех мирах одной фирме, такой как Google, а затем спросить себя: как еще я могу путешествовать по интернету?
«Самые ранние веб-поисковые системы были каталогами веб-сайтов, курируемых людьми»
Выдающийся профессор-исследователь информационных исследований Калифорнийского университета в Лос-Анджелесе и автор книг Big Data, Little Data, No Data: Scholarship in the Networked World
В 90-е годы Yahoo и Altavista действовали довольно успешно. Но компьютеризированный поиск информации — это очень старая область, восходящая, по крайней мере, к 1950-м годам. Первые коммерческие онлайн-системы удаленного доступа датируются началом 1970-х годов.
Google не изобрел средства поиска информации — он опирался на очень старые методы документирования, такие как метод Пола, который изобрел универсальную десятичную классификацию в 1930-х годах и был одним из родителей современной информатики.
История онлайн-поиска информации является дисциплинированной и очень глубоким индексированием специалистов в области медицины, металлургии, материаловедения, химии, инженерии, образования, общественных наук. К началу 1970—х годов у нас были очень хорошие базы данных в интернете, которые были коммерчески доступны — вы платили за минуту подключения.
Некоторые из самых основных принципов Google исходят из td-idf, или Text Frequency Times Inverse Document Frequency, понятия, которое появилось в Кембриджской докторской диссертации Карен СПАРК Джонс в 1958 году. Ее метод включал в себя поиск частоты термина в совокупности работ и деление ее на обратную частоту встречаемости документов. Она действительно Пионер, и позже будет консультировать Google, наряду со многими другими известными исследователями информации. Пейдж и Брин определенно хорошо изучили эту историю.
Google вышла из инициативы цифровых библиотек, проекта, возглавляемого Национальным научным фондом и включающего 8 или 10 различных федеральных агентств. У меня было финансирование от него, и я помню ту встречу, на которой Брин и Пейдж держали плакат с предложением Google. Помню, я подумал: это действительно круто, они заново изобрели библиометрию для Интернета.
Библиометрия — это средство для создания связей между документами и последующего следования по сети. Этот метод особенно полезен для изучения тем, где терминология меняется с течением времени.
Например, если бы вы хотели найти то, что предшествовало современным дискуссиям об абортах, вы бы пошли на дискуссию Roe V.Wade с середины 1970-х годов и искали бы все, что она цитировала, и все, что цитировало ее, так что вы можете пойти в обоих направлениях.
Индекс научного цитирования, также начатый в 1950-х годах, привнес старые принципы библиотечного дела в современную технологию.
Библиометрия и индексация цитирования — это идеи, которые можно проследить на протяжении веков вплоть до библейских аннотаций.
«Google не изобрел поиск информации никакими средствами — он строился на очень старых методах документирования, таких как метод Пола, который изобрел универсальную десятичную классификацию в 1930-х годах и был одним из родителей современной информационной науки»
Адъюнкт-профессор информационных исследований и содиректор UCLA Center for Critical Internet Inquiry at UCLA, а также автор алгоритмов угнетения: как поисковые системы усиливают расизм
Одним из наиболее важных аспектов раннего обмена информацией в интернете было то, что предметные эксперты, от библиотекарей до ученых и экспертов-любителей, были задействованы для культивирования и организации знаний. Это сделало людей, вовлеченных в эти практики, видимыми, даже когда были разработаны ИИ и поисковые инструменты.
Мы понимали, что сила людей — это то, что создаёт обмен информацией в интернете, и мы стремились выяснить, что является надежным, основываясь на аналитике веб-сайтов, управляемых организациями, а особенно университетами и исследовательскими организациями.
Первые поисковые системы были фактически виртуальными библиотеками, и многие люди понимали ценность библиотек как общественного блага. По мере того как росла автоматизация, а библиотекари и эксперты заменялись ИИ, мы многое теряли. Общественное благо, которое могло бы быть реализовано, было заменено массовыми рекламными платформами, такими как Yahoo! и Google.
Теперь экспертные знания передаются на аутсорсинг и часто оптимизируются с помощью контента, который оплачивается самым высоким покупателем на аукционе в AdWords. Это привело к большому разрыву между знаниями и рекламой в поисковых системах, особенно при попытке разобраться в сложных вопросах.
В некотором смысле поиск подорвал наше доверие к опыту и критическому мышлению, подкрепленному исследованными фактами и исследованиями, и оставил нас открытыми для манипуляций пропагандой. Поисковые системы могут быть великолепны в том, чтобы помочь нам найти банальную информацию, но они также снизили и нашу чувствительность к ценности медленного, преднамеренного поиска — того, что создаёт более информированную демократию.
«Первые поисковые системы были, по сути, виртуальными библиотеками, и многие люди понимали ценность библиотек как общественного блага. По мере того как росла автоматизация, а библиотекари и эксперты заменялись ИИ, мы многое теряли. Общественное благо, которое могло бы быть реализовано, было заменено массовыми рекламными платформами, такими как Yahoo! и Google»
Адъюнкт-профессор истории Университета Ватерлоо и автор книги "История в эпоху изобилия: как сеть трансформирует исторические исследования"
Google был, конечно, не первой поисковой системой для интернета. Начиная с 1993 года, существовал Wandex (или World Wide Web Wanderer), который измерял сеть и приводил к поисковому индексу; к Lycos и Infoseek в 1994 году и каталогам вроде Yahoo! в 1995 году.
Однако многие из этих ранних поисковых систем или каталогов были довольно неуклюжими. Если бы Вы были создателем веб-сайта, вам во многих случаях пришлось бы заполнять форму для добавления в каталог или вставлять довольно громоздкие мета-теги в свой HTML.
К середине 1990-х годов, когда все больше и больше людей начали создавать веб-сайты и размещать их на сторонних платформах, они не всегда регистрировали свои сайты.
Отчасти это связано с тем, что ранние веб–сайты могли полагаться на гиперссылки — и гораздо сильнее, чем мы сегодня, в наш век поиска, — чтобы привлечь посетителей на свои сайты.
WebRing — отличный тому пример. WebRing был разработан в 1995 году молодым разработчиком программного обеспечения по имени Sage Weil. WebRings были группами веб-сайтов, которые были объединены тематически. Итак, люди, интересующиеся старыми автомобилями, присоединятся к автолюбителю WebRing. Любители кошек — к WebRing, ориентированному на кошек, и так далее. В нижней части этих страниц был веб-интерфейс, призывающий пользователей перейти на «следующий» сайт или на «предыдущий», или даже на общий индекс всех, кто присоединился к тематике.
Это был довольно демократичный и доступный способ обнаружения объектов. Любой мог создать веб-тематику, любой мог присоединиться к ней, если администратор считал, что они вписываются в сообщество. Самое главное, они сформировали новый способ связи между людьми. Расцвет WebRings продолжался примерно до 2000 года, когда технология оказалась в руках Yahoo! и некоторые изменения в управлении привели к отчуждению пользователей.
Я не хочу излишне ностальгировать: я не хочу возвращаться в мир, где мы открывали контент в основном через гиперссылки, и я использую Google так же часто, как и все остальные. Но то, как работает Google, благодаря PageRank, заключается в том, что чем больше ссылок на сайт поступает с влиятельных сайтов, тем выше он поднимается на страницах результатов поиска. Это приводит к тому, что трафик направляется нескольким крупным победителям.
Если я буду искать «кошек», то смогу изучить дюжину или около того из почти четырех миллиардов результатов. Где-то в этих миллиардах страниц, несомненно, есть классные домашние страницы людей, которые просто действительно любят своих кошек. В 1998 году, просматривая веб-страницы, я мог бы случайно обнаружить какой-нибудь увлекательный контент или почувствовать некую общность, найдя единомышленников. Это труднее найти с помощью Google.
«Google был, конечно, не первой поисковой системой для интернета. Начиная с 1993 года, существовал Wandex (или World Wide Web Wanderer), который измерял сеть и приводил к поисковому индексу; к Lycos и Infoseek в 1994 году и каталогам вроде Yahoo! в 1995 году»
Адъюнкт-профессор практики медиа-искусств и наук в MIT Media Lab, директор Центра гражданских медиа в MIT и автор книги Digital Cosmopolitans: почему мы думаем, что Интернет соединяет нас, почему он этого не делает, и как его перепрошить
Ну, в те мрачные дни мы использовали несколько разных поисковых систем, которые работали на двух разных философиях: TFIDF и Human curation.
TF-IDF расшифровывается как «частота термина обратная частоте документа». Это означает, что поисковая система приняла ваш запрос— например, «какова сила мула» — и искала документы, содержащие этот термин. Но система также учитывала, насколько распространен этот термин во всем интернете в целом, чтобы избежать чрезмерного совпадения с очень распространенными терминами. Таким образом, при поиске «какова сила мула» движок TF-IDF, скорее всего, предпочтет документы, в которых упоминаются мулы, тем, в которых упоминается сила, потому что сила — более распространенное слово, чем мул.
TF-IDF уязвим для очень специфического вида взлома. Если я хочу продать вам мой новый веб-сайт про мулов (они просто были в моде в начале 1990-х годов), я просто размещаю веб-страницу, на которой снова и снова говорится «сила мула». В интернете нет документа, который лучше соответствовал бы вашему запросу, поэтому я каждый раз буду подходить к нему №1.
Именно эта слабость привела Ларри Пейджа и Сергея Брина к работе над Page Rank. Идея заключалась в том, что страницы, подобные моей спам-странице, вряд ли будут отображаться в поиске, в то время как полезные страницы будут получать много входящих ссылок. Google в основном использовал TF-IDF для ранжирования страниц, чтобы запустить свою первоначальную поисковую систему.
Lycos, в которой я недолго работал после того, как они купили Tripod, компанию, которую я помог запустить, работала на TF-IDF, как и Excite, HotWired и Altavista, которые, как я помню, были лучшими из этой группы.
TF-IDF никогда не работал особенно хорошо. Со временем умные поисковые системы обнаружили, что 30-50% запросов могут быть решены с помощью страниц ручного поиска. Например, если вы искали «результаты гонки на мулах», то найти страницу, на которой явно упоминается эта фраза, было бы, вероятно, бесполезно. Вас отправят на главную страницу AMF (Американская федерация бега на мулах). Lycos обслуживал по крайней мере 30% страниц результатов ручной работы, когда я ушел в 1999 году.
Yahoo, напротив, изначально работала на полностью человеческой кураторской основе. Это была не поисковая система, а каталог. Когда вы искали «гонки на мулах», он показывал вам, где гонки на мулах вписываются в различные иерархии:
Спорт -> Спортивные Лиги - > > Гонки - > > > Гонки На Мулах
А затем ссылка на AMF, OOM (Only Ornery Mules) и ESPN (Entertainment and Animal Programming Network)
Закон - > Жестокое Обращение С Животными ->> Гонки На Мулах
а потом к PET'em (людям за этическое обращение с мулами)
Что было замечательно в этом, так это то, что он мог показать вам, как одна сущность (AMF) вписывается в более широкий мир мул-гонок. Это было особенно приятно, если вы искали компании, так как вы могли быстро найти потенциальных конкурентов или различных поставщиков. Но это была королевская боль в заднице, чтобы выяснить, где они приземлились в иерархии.
И да поможет вам Бог, когда кто-то изобретет что-то новое, например, парового гоночного мула. Это относится к скачкам на мулах или к паровой тяге? И то и другое? Или новая категория полностью признает появление новых спортивных лиг, таких как NASCAR (National Active Steam Cattle Associated Racing)?
Yahoo! первые несколько лет работал очень хорошо, но к 1997 году он стал громоздким и ломающимся — они отдали аутсорсинг своего поиска другим компаниям (сначала Excite, а теперь Bing. Я скучаю по нему, хотя бы потому, что мне было интересно видеть, как люди организовали всё человеческое знание).
Трудно представить, что Yahoo! вернется — это просто слишком много проклятой работы. В каком-то смысле поисковые страницы с человеческим кураторством вернулись. Большая часть страниц результатов Google — это не тип веб-поиска TF-IDF, а страница, построенная из различных запросов к базе данных: для поиска погоды Google использует геолокацию, чтобы определить, где вы находитесь, и находит местные новости погоды из базы данных.
Я на самом деле думаю, что страницы, курируемые людьми-библиотекарями, работающими вместе в стиле Википедии, — могут быть отличным решением для того, чтобы справиться с быстро возникающими темами, которые, как правило, захватываются политическими экстремистами.
Что касается того, чего мне не хватает: я скучаю по мулам.