Группа библиотекарей из студенческого городка в 1970-е годы смогла заглянуть в наш мир распределённых знаний и исследований и разработать для него инструменты поиска.
Всю осень 1970 года, которая выдалась необычайно солнечной, сотни студентов и преподавателей Сиракузского университета поочерёдно усаживались перед печатным компьютерным терминалом (похожим на электронную печатную машинку), соединённым с мейнфреймом IBM 360, расположенным на другом конце студенческого городка в штате Нью-Йорк. Почти никто из них компьютером до этого не пользовался, не говоря уже о компьютерных системах поиска информации. Когда они касались клавиатуры у них тряслись руки, и некоторые из них впоследствии сообщили, что они боялись, что пока они печатают выведут всю систему из строя.
Участники впервые осуществляли поиск онлайн, аккуратно подбирая слова, чтобы найти соответствующие аннотации по психологии в новенькой базе данных. В каждой строке они вводили только один ключевой термин или инструкцию, допустим, «Мотивация» в строке 1, «Оценка» в строке 2, а в строке 3 — «L1 и L2», если требовалось найти статьи, где содержатся оба термина. После выполнения запроса терминал выдавал распечатку, где указывалось количество документов, соответствующих тому или иному запросу, после чего пользователи могли сузить или расширить поиск, прежде чем будет сгенерирован список выдержек из статей. Увидев ответ от компьютера, расположенного так далеко, многие пользователи начинали смеяться.
В ходе телефонного опроса после эксперимента участников просили двумя-тремя словами описать свои ощущения. Общее количество полученных в ответ слов составляло 78, из которых 21 было одним и тем же прилагательным: «обескураживающий». Участники испытывали трудности со входом в систему и сталкивались с непредсказуемыми неудачами, «неадекватными результатами» и, чаще всего, не знали «какими словами пользоваться для поиска». И всё же система заинтриговала и взволновала их («забавно», «основательно», «компьютеры классные»), и 94 процента участников сказали, что, если будет такая возможность, они снова воспользуются SUPRAS (the Syracuse University Psychological Abstracts Retrieval Service — системой поиска аннотаций по психологии Сиракузского университета). Некоторые из них предложили продлить эксперимент после окончания установленного срока, попросив свои факультеты поучаствовать в финансировании проекта.
Эта группа подопытных учёных, в основном студентов магистратуры по специальностям «педагогика», «психология» и «библиотековедение», была частью проводимого школой библиотековедения Сиракузского университета радикального эксперимента по онлайн-поиску. SUPRAS была одной из многочисленных амбициозных исследований по информационному поиску, которые проводились в студенческих городках США с конца 1960-х до середины 1970-х годов. К этому всплеску исследований привёл ряд факторов. Благодаря достижениям в области вычислительных мощностей и хранения информации стало возможным оцифровать вузовские базы данных и перевести их в режим онлайн. Новые компьютерные терминалы имели модульную архитектуру, их можно было располагать в разных частях студкородков для децентрализованного доступа к мейнфреймам. Кроме того, финансирование исследований с помощью компьютеров со стороны военных и промышленников было таким щедрым, как никогда ранее. Получив такую возможность, вузовские библиотекари воспользовались шансом исследовать эту новую дорогостоящую технологию. В свою очередь, университеты предоставили незасекреченные эксплуатационные условия для сотрудничества с фирмами, занимающимися корпоративными технологиями и группами военных; SUPRAS была проспонсирована RADC (Rome Air Development Center — научно-исследовательский центр ВВС США).
Легко понять почему библиотекари 70-х решили совершить революцию в поиске. Наука развивались такими темпами, что в ближайшее время штата живых библиотекарей не хватило бы для того, чтобы полностью покрыть её запросы. И в то же время, чтобы получить необходимую информацию исследователям пришлось бы ввязываться в трудоёмкий процесс, где потребовалось вмешательство библиотекаря. В то время как научные исследователи уже могли просматривать новые издания журналов в соответствующей их специальности области знаний, для осуществления специфического поиска того, что было опубликовано ранее, им всё-таки требовалось консультироваться с библиотекарем-консультантом чтобы найти соответствующие заголовки из многотомного справочника в библиотеке Конгресса. Вооружившись набором предметных заголовков, исследователь затем мог осуществлять поиск книг по библиотечному каталогу или журнальных статей по индексам цитирования, включая подписные базы данных, такие как Индекс научных ссылок, а также составленные вручную библиографии, составленные университетскими библиотекарями по заданному профилю. В конце концов, они могли отследить соответствующие книги и переплёты с периодическими изданиями, где содержались статьи, которые, по их мнению, были релевантными — если тома действительно хранились на библиотечной полке.
Неудивительно, что участники эксперимента SUPRAS признали привлекательность системы, несмотря на её ограничения. И, учитывая насколько университетские библиотекари были осведомлены о трудностях поиска, разумно предположить, что разработанная ими система пошла дальше, чем предметные заголовки и индексы цитирования. Ещё более удивительно то, что из всех экспериментов по поиску онлайн, которые проводились в этот период, включая нацеленные на коммерческое использование поисковые системы типа Dialog корпорации Lockheed, которая впоследствии стала её фирменным продуктом, SUPRAS намного больше остальных аналогов напоминала современную всемирную сеть, предвосхищая некоторые первичные черты протоколов сетевого поиска, на которые мы полагаемся более чем 50 лет спустя.
SUPRAS и другие, по большому счёту забытые, системы были предтечей современных поисковых машин, которыми мы пользуемся сегодня. В то время как популярная история интернета воспевает кодеров Силиконовой долины, или иногда бывшего вице-президента США Эла Гора, многие оригинальные концепции поиска появились благодаря учёным-библиотековедам, которые сосредотачивались на доступности документов в пространстве и времени. То, чего они достигли, работая при финансовой поддержке военных и промышленников, можно увидеть во многих чертах сегодняшнего информационного онлайн-ландшафта — от общего подхода к получению и индексированию полнотекстовых документов до поиска определяемого пользователем текста и сложного механизма с использованием сохранённых результатов поиска других пользователей — краеугольного камня современных функций расширенного запроса и автозаполнения. Действительно, эти и многие другие подходы, разработанные первопроходцами из студгородков, по сей день используются многомиллиардными компаниями, занимающимися веб-поиском, и коммерческими библиотечными базами данных — от Google до WorldCat.
SUPARS была разработана библиотекарем по имени Полин Атертон (сегодня она известна под именем Полин Атертон Кокрейн). В 1960-м году, в возрасте 30 лет, в начале своей карьеры библиотекаря, она была редактором перекрёстных ссылок вышедшего в том году пересмотренного издания Всемирной Энциклопедии (World Book Encyclopedia), где она должна была обеспечить точность и доскональность перекрёстных ссылок между различными статьями. К 1966-му году она работала в библиотеках Сиракузского университета и в школе библиотековедения, где в 1968-м году она впервые продемонстрировала использование онлайнового файла десятичной классификации для облегчения поиска (AUDACIOUS). В том же году она основала первую компьютерную обучающую лабораторию, где онлайн-поиск был интегрирован в стандартный процесс классного преподавания в школе библиотековедения (LEEP). (В контексте доинтернетного мира слово «онлайн» означало установление сетевого соединения в режиме реального времени между компьютером типа мейнфрейм и каким-либо удалённым устройством, например терминалом.)
В следующем, 1969-м году, Атертон спроектировала SUPRAS со своим коллегой, Джеффри Катцером, который также был профессором библиотековедения в Сиракузском университете. Главной целью проекта SUPRAS было обеспечение широкомасштабного онлайн-поиска чтобы как можно больше узнать о том каким образом пользователи производили поиск онлайн, что они при этом чувствовали и что им было необходимо для того, чтобы поиск стал лучше. С этой целью командой был сформирован корпус научного информационного материала, поиск по которому мог производится всем студгородком; более 35000 недавних статей из ежемесячника «Психологические аннотации», выпускавшегося Американской психологической ассоциацией. Этот корпус использовался для индексирования и поиска в системе SUPRAS, став первой базой данных значимых размеров, доступной онлайн в незасекреченной среде. И хотя очевидно, что они были ничтожными по сравнению с масштабами современного интернет-поиска, для своего времени как размер пользовательской группы, так и объём доступного для поиска контента были огромны.
Действительно новаторским SUPRAS стал благодаря двум решениям, принятым Атертон и её командой. Во-первых, они отсекли все предметные заголовки от статей «Психологических аннотаций» и сделали все слова доступными для поиска, исключив соединительные слова вроде «and» и артикли «a» и «the». Благодаря этому SUPRAS стала первой системой, где объёмный произвольный текст стал доступным в режиме онлайн как для поиска, так и для отображения. (Они назвали свой финальный отчёт «Оценка поиска произвольного текста»). Во-вторых, они сохраняли каждый поиск в SUPRAS в параллельной базе данных, запросы в которой можно было осуществлять одновременно с самими аннотациями, благодаря чему SUPRAS стала первым экспериментом, позволявшим пользователям получить доступ к предыдущим результатам поиска, чтобы обнаружить альтернативные термины или подходы.
SUPRAS послужил прообразом веб-поиска, позволив пользователям искать произвольный текст внутри самих документов.
Обе эти функции были бы новаторскими сами по себе, но для того, чтобы в контексте представить себе насколько эта комбинация шла впереди своего времени, стоит рассмотреть каким образом действуют сегодняшние сервисы интернет-поиска. Google, Bing и другие поисковые машины индексируют веб-страницы используя два основных компонента: поисковые боты ищут новые страницы и регулярно посещают уже найденные страницы; парсеры анализируют содержимое страниц, сохраняя полученную информацию, включая произвольный текст, во внутренней базе данных. Когда пользователь вводит поисковый запрос, Google пытается сравнить слова и фразы, использованные в запросе, со страницами в своей базе данных и выдать пользователю наиболее подходящие результаты.
Вдобавок к словам, которые вводят сами пользователи, современные алгоритмы веб-поиска также учитывают другие термины, тесно связанные с содержимым поискового запроса, включая синонимы (допустим, при запросе «bike» выдавая результаты для «bicycle» и «cycle») и другие напрямую родственные слова.
Большинство поисковых машин также включат слова, входившие в состав подобных запросов, выполненных другими пользователями, которые становятся частью внутренних тезаурусов, используемых для добавления терминов к запросу пользователя. Этот процесс включения родственных слов, известный как расширение запроса, существенно улучшает релевантность полученных результатов. Подобным образом, Google и другие поисковые машины также предлагают пользователям дополнительные поисковые термины путём автозаполнения, выдавая предположения на основании предыдущего поиска, чтобы помочь пользователям быстро выполнить запрос.
Таким образом, SUPRAS предвосхитила веб-поиск, дав пользователям возможность напрямую искать произвольный текст в самих документах, и позволив им осуществлять поиск «на чужом горбу», за счёт поисковых стратегий, использованных теми, кто искал до них. В то же время, SUPRAS определяла применимость этих индивидуальных поисков через анализ журнала транзакций. После первого пилотного проекта были проведены две сессии тестирования SUPRAS: между октябрём и декабрём 1970-го (SUPRAS I) и с ноября по декабрь 1971-го (SUPRAS II). Команда Атертон пришла к выводу, что поиск произвольного текста является эффективным способом повышения релевантности (на жаргоне учёных - «отклика») результатов поиска — и что он может быть таким же эффективным, как поиск, выполненный научным библиотекарем человеческого свойства. Более того, постоянно эволюционирующий лексикон системы, постоянно адаптируемой к вводимой человеком информации и его поведению стало качественным шагом вперёд по сравнению с фиксированным, «одноразовым» контролируемым лексиконом ранее существовавших поисковых систем. Команде SUPRAS было невдомёк, что спустя несколько десятилетий эту тщательную работу будут выполнять алгоритмы веб-поиска на базе искусственного интеллекта, но очевидно, что они понимали, что это станет новым и эффективным способом постоянно совершенствовать результаты поиска.
В письме редактору «Журнала Американского общества информационных наук» от 1972 года Катцер описал обоснование предоставления базы данных по всем предыдущим поисковым запросам: «Цель этой поисковой базы данных — помочь пользователю, когда он пытается сформулировать запросы в базу данных документов («Психологических аннотаций»). Поскольку на данный момент в SUPRAS используется неограниченный лексикон, информация на выходе базы данных может помочь пользователю найти новые способы работы с его темой в документальной базе данных: она предложит ему ключевые слова, использованные другими экспертами по этой теме, в том числе обеспечит представление о его мыслительном процессах… [Мы] полагаем, что этим положено начало в сфере, которая до сих пор недостаточно исследована — использование интеллекта пользователя с целью преумножения всех усилий, вложенных в машинный интеллект.
Есть соблазн представить команду Атертон как футуристов-утопистов, но при проектировании эксперимента SUPRAS никто не задумывался о таких перспективах как открытая сеть. Он был создан только для того, чтобы в будущем для личной помощи исследователям требовалось бы меньшее количество библиотекарей. Расширение коллективного интеллекта других людей было не идеалистическим, но практическим решением.
Команда Атертон заметила, что, поскольку месторасположение новых компьютерных терминалов в Сиракузском университете было «удаленным относительно библиотекарей-консультантов или любых иных специалистов в сфере интересов пользователя», им потребуются дополнительный источник помощи, который можно найти в «человеческом интеллекте всех остальных пользователей системы». Совокупные решения остальных исследователей были единственной заменой библиотекарю-эксперту, писали они:
В идеале пользователь сможет поговорить с кем-то, кто знаком с его сферой интересов и получить набор слов или иных указаний. После этого пользователь сможет создать или сформулировать поисковый запрос к системе, обладающей специфичностью и полнотой, необходимыми для обеспечения максимального результата.
Работая с модульным терминалом в студгородке, команда SUPRAS видела каким станет будущее и что потеряет мир, основанный на распределённых сетевых вычислениях: растущее количество исследователей всё чаще работающее за пределами библиотек, самостоятельно, нуждаясь в поддержке, которую библиотекари не в состоянии будут обеспечить. Команда Атертон не предсказывала будущего, где квалифицированные библиотекари станут не нужны; они готовились к будущему, где исследования будут проводиться во многих разрозненных точках, слишком далёких от справочного стола, за которым им могли бы помочь.
Люди, считающиеся провидцами, мечтали о мире, в котором технология улучшит общение между людьми
Экспериментаторы из SUPRAS также пришли к заключению, что в то время как использование поисковых терминов других пользователей представляло многообещающую альтернативу предметно-ориентированному поиску, у него были конкретные ограничения. Одной из окончательных рекомендаций SUPRAS было продолжать разработку контролируемого лексикона, обосновывая это тем, что «всё ещё существует необходимость в интерактивном поиске произвольного текста некой формы контроля пользовательского лексикона и синонимов». Они пришли к этому выводу после того, как часто участники SUPRAS натыкаются на различные проблемы с поисковым лексиконом, как, например, в одном из приводимых ими примеров, пользователи искали «народ» вместо «люди» и не получали результатов (в оригинале: «people» вместо «humans» - прим. перев.). Сами участники не имели представления о полноте предметных заголовков. На самом деле, в ходе опроса по результатам эксперимента SUPRAS им был задан вопрос предпочитают ли они систему с произвольным текстом или же ту, где лексикон контролируется: 42% предпочли систему с произвольным текстом, 36% предпочли контролируемый лексикон, а 12% хотели бы и то и другое.
В этом смысле SUPRAS показателен и как проект, намного опередивший своё время, и как пример, противоречащий техно-утопическим историям интернета и всемирной сети. Люди, считающиеся провидцами в данной истории, почти всегда мечтали о мире, где технология абсолютным образом улучшит общение между людьми, степень их интеллекта и их эффективность.
Например, одна из наиболее прославленных фигур в этой истории — Джозеф Карл Робнетт «Лик» Ликлайдер, чья идея об универсальной сети напрямую вдохновило к изобретению ARPANET, который часто называют «первым интернетом». (Ликлайдер также был тесно связан с подобными экспериментами по онлайн-поиску на базе студгородков в 1960-ех и 1970-х; он как финансировал, так и был советником в нескольких исследованиях в Массачусетском технологическом институте, которые проводились в тот же период, что и SUPRAS).
В 1968 году, за год до разработки SUPRAS, в работе Ликлайдера «Компьютер как устройство для коммуникации» провозглашалось, что «Через несколько лет люди смогут общаться с помощью машин эффективнее чем лицом к лицу», а также описывалось благостное, счастливое общество, где взаимодействие между людьми будет осуществляться с помощью компьютеров. Ликлайдер предсказывал, что «жизнь онлайн-индивидуумов будет счастливее» и что «общение будет эффективнее и продуктивнее, а следовательно — приятнее». Одновременно пророческое и радужное, эссе Ликлайдера является типичным для этого футуристического жанра о потенциале информационных технологий.
В нашей культуре люди типа Ликлайдера воспеты за то, что они были провидцами в позитивном ключе. Но, подобным образом, Атертон и команду исследователей SUPRAS можно чествовать за то, что они предвидели что в будущем будет утрачено, и учли это в своём проекте. Расширив нашу группу официальных пророков интернета за счёт таких людей как Атертон, мы видим более сложный портрет грядущего, составленный исследователями различного толка. Там, где Ликлайдер понял какие преимущества мы получим благодаря возможности общаться онлайн с любым жителем планеты, группа Атертон увидела, что мы потеряем экспертов-посредников, и учла эти издержки в своём проекте.
В 2022-м и 2023-м годах, когда первые поисковые системы на основе генеративного искусственного интеллекта, такие как Elicit и Consensus были представлены широкому кругу пользователей как к великому воодушевлению, так и к великому скептицизму, так же полезно было бы проанализировать что будет утрачено, когда исследователи станут полагаться на эти инструменты. Когда мы сможем путём простого ввода вопросов для исследования мгновенно получать обзоры литературы, например, это станет не просто огромным скачком вперёд. Эта новая технология создаст недостаток в обосновании и в контексте, даже когда будут совершаться невероятные открытия — иного рода утрата по сравнению с той, что предвидела Атертон, но настолько же неосязаемая и имеющая серьёзнейшие последствия. Способность предсказать такие последствия заранее, не оплакивая их подобно луддитам, а активным образом думая о том как помочь исследователям справиться с ними — вот урок, который дала нам команда SUPRAS.
Автор — Моника Уэстин (Monica Westin), является библиотекарем с опытом работы в академических и научных изданиях. Она работает с политикой авторского права в Google и читает лекции по программе магистратуры информационных наук в Лондонском городском университете.
Редактор — Пэм Вайнтрауб (Pam Weintraub).
Перевод — Андрей Прокипчук, «XX2 ВЕК».
Источники: https://aeon.co/essays/the-1970s-librarians-who-revolutionised-the-challenge-of-search.
Друзья! Если вам нравится то, что мы делаем, вы очень поможете нам, подписавшись на канал «XX2 век». Также мы будем рады вашим лайкам и комментариям. Поддержите распространение научного знания и научного взгляда на мир!