Введение
Что такое информационно поисковые системы?
Информационно-поисковая система (ИПС) – это прикладная компьютерная среда для обработки, хранения, сортировки, фильтрации и поиска больших массивов структурированной информации.
Данное понятие возникло еще в конце 80 – х, начале 90 – х годов прошлого века. Именно тогда и возникли их первые прототипы, как в России, так и за рубежом. Согласно определению – это система, которая позволяет искать, обрабатывать, отбирать требуемые данные запроса в своей особой базе, где находятся описания различных источников информации, а также правила пользования ими.
Основной ее задачей является поиск нужной пользователю информации. Для того, чтобы он был более эффективным, используется понятие релевантности, то есть то, насколько сами результаты поиска точно подходят тому или иному запросу.
Работа информационно – поисковой системы является очень сложной. Однако при желании можно разобраться в ее структуре. Первое, что необходимо отметить, что существует особая программа – она называется поисковым роботом (пауком). Данная программа систематически мониторит различные страницы и индексирует их.
Веб сервер создает запрос пользователя на получение той или иной информации, а затем предоставляет данный запрос машине поиска. Поисковик исследует требуемую базу данных, потом составляет полный список страниц, а затем передает веб-серверу. Он в свою очередь окончательно формирует все результаты запроса в «читаемый» вид, затем передает их на «комп» пользователя.
Информационно-поисковые системы
Классификация ИПС
По характеру предоставления логической организации хранимой информации разделяются на фактографические, документальные и геоинформационные.
Фактографические накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов. Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения, по какому - либо факту, событию. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области.
В документальных единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе, как правило, не структурируются, или структурируются в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции - дата изготовления, исполнитель, тематика. Некоторые виды документальных информационных систем обеспечивают установление логической взаимосвязи вводимых документов - соподчиненность по смысловому содержанию.
В геоинформационных данные организованы в виде отдельных информационных объектов, привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов, в которых имеется географический компонент.
Другим критерием классификации поисковых систем являются функции или решаемые задачи.
Справочные являются наиболее распространенным типом функций информационных систем, и заключается в предоставлении абонентам системы возможностей получения установочных данных на определённые классы объектов.
Поисковые являются наиболее распространённым классом информационных систем. В общем, виде можно рассматривать как некое информационное пространство, задаваемое в терминах информационно - логического описания предметной области.
Расчетные заключается в обработке информации, находящейся в системе, по определённым расчётным алгоритмам для различных целей.
Принципы работы
Главная цель любого современного поисковика, это выдать максимально релевантный и полезный для пользователя поисковый результат, а в частности, сайт, в котором пользователь сможет найти нужную ему информацию или воспользоваться нужной ему услугой. Принцип работы всех поисковых систем почти одинаковый, а проходит он в 3 основных этапа: сканирование, индексирование, показ результатов поиска.
Сканирование.
На этапе сканирования, специальный алгоритм изучает весь контент в интернете и пытается найти новый сайт или уже обновленный контент. Индекс — это, по сути, самая важная составляющая любого современного поисковика.
Индексирование.
При индексировании алгоритм пытается определить тематику сайта, какой у него контент и вообще есть ли запрещающий контент, а также алгоритм умеет распознавать текст и медиафайлы, находящиеся на страницы. В процессе, специальный алгоритм сканирует веб-страницу на наличие оригинального авторского контента, и в случае обнаружение, он дает страницы высокий рейтинг, если же контент скопирован или имеет множество материалов, которые нарушают авторские права, то соответственно рейтинг страницы снижают.
Показ результатов поиска.
Когда пользователь вводит поисковый запрос, поисковая система в своем индексе, опираясь на самые разные факторы, ищет наиболее подходящие результаты. К таким факторам относятся местоположение, язык, тип устройства пользователя (компьютер или телефон) и т. д.
Результаты, которые считаются более релевантными для пользователя, намеренно получают более высокий ранг, чем результаты, которые имеют меньше шансов обеспечить адекватный ответ.
Информационно-поисковые языки
Наряду с многочисленными естественными языками в человеческом обществе получили большое распространение и различные искусственные языки. Они создаются людьми для решения каких-либо задач в области науки и техники (машинные языки), для общения между людьми (эсперанто, профессиональные диалекты). Среди искусственных языков особое значение занимают информационные языки.
Необходимость создания и использования информационных языков для обработки информации возникла и продолжает углубляться по мере совершенствования информационной технологии в обществе. Машинный язык — это искусственный, формальный язык, предназначенный для записи информации, хранящейся в запоминающем устройстве вычислительных машин, для описания программ (алгоритмов), указывающих очередность и последовательность выполнения команд по вводу данных из запоминающего устройства, переработке и преобразованию поступающей в машину информации.
Для поиска информации разрабатываются и широко применяются такие искусственные языки, как информационно-поисковые. Информационно-поисковый язык (ИПЯ) — искусственная знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации.
Структура ИПЯ однотипна с формальной структурой информации и предполагает выделение следующих уровней:
- фонетического;
- лексического;
- синтаксического;
- текстового.
Элементы каждого уровня объединяются в синтагмы и парадигмы.
Фонетический уровень — это алфавит (списка элементарных символов). В ИПЯ для этого применяют символы естественного языка: кириллица, латинский алфавит, арабские и римские цифры, знаки пунктуации.
Лексический уровень или словарный запас — совокупность всех употребляемых в ИПЯ лексических единиц.
Лексическая единица — наименьшая осмысленная последовательность знаков, задаваемая при конструировании отдельных слов языка. Лексические единицы и образуют лексику языка.
Системы индексирования, поисковые агенты
Индексирование – это процесс перевода текстов с естественного языка на ИПЯ. Индексирование базируется на совокупности инструкций, детально описывающих процесс индексирования и представляющих собой комплекс правил, включающих и правила применения ИПЯ.
Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ. Помимо правил применения ИПЯ система индексирования может включать большое разнообразие инструкций, положений, методов и т.д., регламентирующих те или иные этапы процесса индексирования.
Существующие системы индексирования сильно отличаются друг от друга, и описать их общий состав и структуру невозможно. Однако наличие общих признаков позволяет дать системное представление о классах систем индексирования.
Рассмотрим типологию систем индексирования по пяти наиболее важным основаниям:
1. По степени автоматизации процесса индексирования выделяют
системы:
- ручного индексирования;
- автоматического индексирования;
- автоматизированного индексирования.
2. По степени контролируемости различают системы:
- без словаря;
- с жестким словарем;
- со свободным словарем.
3. По характеру алгоритма отбора слов текста выделяют системы:
- с последовательным просмотром текста (отбираются все полнозначные слова);
- эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):
- со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).
4. По характеру лексикографического контроля различают системы:
- без лексикографического контроля;
- с полным контролем;
- с промежуточным контролем.
Лексикографический контроль предусматривает:
• устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;
• нормализацию слов на основе морфологических нормативных словарей.
В системах с полным контролем реализуются обе функции лексографического контроля. В системах индексации с промежуточным контролем эти функции реализуются частично.
5. По характеру морфологического анализа слов различают системы:
- с использованием морфологических словарей;
- с использованием основных лексических словарей;
- с использованием морфологического анализа с усечением слов.
Поисковый агент — это программа, периодически сканирующая всю Сеть и проверяющая, есть ли по тому или иному адресу Web-страница. Если страница есть, агент проверяет ее HTML-код, извлекает из него интернет-адреса, ведущие на другие Web-страницы.
Также он извлекает ее название и пытается извлечь описание и набор ключевых слов, если они есть, после чего заносит все это в базу данных поисковика (индексирование).
Далее он обращается к Web-страницам, находящимся по найденным на текущей странице адресам, и проделывает с ними то же самое.
Пертинентность и релевантность информационных запросов
Пертинентность (лат. pertineo — касаться, относиться) — соответствие найденных информационно-поисковой системой результатов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации.
Релевантность (англ. relevance — актуальность, уместность) в информационном поиске — соответствие интента (поискового намерения), заложенного в запросе, и выдачи в поисковой системе, полученной в результате этого запроса.
Факторы, которые оказывают влияние на релевантность, принято делить на внешние и внутренние. К внешним относят ссылочную массу, к внутренним — технические составляющие и содержимое.
Ссылочная масса.
Чем больше тематических и качественных ссылок ведёт на страницы ресурса, тем больше вероятность ценности ресурса для пользователя.
Технические составляющие.
Большая группа параметров, по которым поисковая система оценивает как сайт в целом, так и отдельные страницы (например, наличие метатегов, отсутствие ошибок в HTML-разметке и так далее).
Контент.
Ключевой фактор, от которого зависит релевантность страницы и конверсия. Содержимое сайта должно быть уникальным и «для людей».
Сравнение наиболее популярных ИПС
На первом месте находится неоспоримый лидер многих лет информационно-поисковых систем - Google, получающий четыре из пяти запросов по самым различным вопросам активных пользователей со всего мира.
Google является основной информационно-поисковой системой, обрабатывающей большую часть запросов со всего мира. Этот поисковик знают большое количество активных пользователей интернета. Каждый месяц система обрабатывает более сорока миллиардов запросов, проводит индексацию двадцати пять миллиардов страниц в виртуальной сети.
Поисковую систему создали два талантливых программиста в 1996 году. Назвали они ее просто и лаконично - Google. В ее фундамент был заложен специальный поисковый робот. Он производил сканирование страниц и их индексацию. Робот обеспечивает то, как будут формироваться страницы пользователю в результатах поиска сегодня. В Google одними из первых разработали поиск с помощью голоса на нескольких языках, облегчающий введение данных в систему.
Google имеет свой аналог в нашей стране, он на данный момент насчитывает более миллиарда проиндексированных страниц.
"Гугл" является одной из поисковых систем, глубоко индексирующей ваш сайт. Большим и популярным сайтам проще попасть на высокие позиции в результатах поиска Google, тем самым система защищает себя и пользователей от ненужной информации.
Второе место занимает Yahoo.
Yahoo создана в 1994 году. Она по сей день остается очень популярной, сочетающей поиск по словам, содержащим ключи, с помощью построенного иерархически дерева разделов.
Современное развитие поисковика определяется как движение вперед к интерактивности. Yahoo осваивает это пространство, но техническая составляющая системы не была на это рассчитана при создании поисковика. Не было в Yahoo заложено составляющей работы в режиме реального времени, поэтому существует риск хакерских атак на эту незащищенную часть поисковика.
Одна из уникальных черт заключается в функциональной панели задач для Firefox. Этот уникальный инструмент является помощником пользователя при использовании Yahoo. Пользователь ищет данные, не заходя на сайт поисковика, а лишь используя панельные кнопки.
В 2005 компания заявила о запуске системы поиска текстовых данных и изображений, содержащихся в письмах. Необходимость такой функции возникла из-за роста объема хранимых пользователями данных. Некоторые люди создают целые архивные почтовики.
Активные пользователи Yahoo могут использовать возможности поиска слов в заголовке или, например, в теле письма, а также в прикрепленных файлах, не открывая и не читая их. Текстовый результат поиска отражается в строках с указанием всех необходимых атрибутов для отправляющего запрос. Найденные фотографические изображения выводятся на экран.
Yahoo принадлежит более двухсот миллионов адресов почты, что есть более тридцати процентов мирового рынка.
На третьем месте Яндекс.
Одной из лучших систем нашей страны является Яндекс. На текущий день поисковик занимает четвертое место по суммарному количеству пользовательских заявок. Яндекс по популярности сегодня лидирует среди пользователей в нашей стране. Суммарное количество сделанных запросов превышает двести пятьдесят миллионов каждый день. Сегодня поисковик Яндекс имеет пятьдесят уникальных, специально разработанных приложений.
Начиная с 2010 года, помимо известного поисковика yandex.ru появился еще один поисковик yandex.com, используемый для поиска по зарубежным порталам.
В отличие от других систем поиска, Яндекс не игнорирует морфологию русского языка. Поисковик предназначен для функционирования в русскоязычной части интернета. Основополагающие различие между русскоязычными поисковиками и иностранными состоит в том, что поисковые системы, формально осуществляющие поиск на русском языке, игнорируют морфологию русского языка. В русскоязычной части виртуальной сети функционируют около двух десятков современных поисковиков, но большинство пользователей работают с Яндекс.
Сегодня Яндекс - популярная русскоязычная поисковая система. Каждый месяц к ней обращаются более тридцати пяти миллионов пользователей виртуальной сети.
Основал его советский программист в 1989 году. Сначала был разработан алгоритм формирования гипотез. Отныне разбор запрашиваемых словосочетаний и текстов перестал быть строго привязан к словарю. Если запрашиваемого слова в словаре не находилось, то находились максимально похожие на него однокоренные слова. Еще через полгода стало понятно, что ничто не мешает созданию новой русскоязычной поисковой машины. Осенью был представлен мировому сообществу yandex.ru.
Помимо поисковой системы, сегодня Яндекс является огромным порталом с набором используемых повсеместно специально созданных сервисов. Гибкий язык запросов позволяет оформлять поиск по различным критериям запроса. По умолчанию поиск выводит по несколько ссылок на странице результатов. Иногда ранжирование сайтов на этих страницах меняется, так как обновление результирующих баз происходит не одномоментно.
Периодически алгоритмы поисковика Яндекса, отвечающие за релевантность выдачи, видоизменяются, что приводит к корректировкам в результатах запросов. Эти изменения направлены против огромного поискового спама, существующего в сети и приводящего к некорректным результатам по запросам активных пользователей.
Заключение
Таким образом, информационно-поисковые системы имеют огромное значение в нашей жизни, облегчая поиск информации в интернете и сокращая время, затраченное на ее поиск. В настоящее время на рынке существует множество различных поисковых систем, каждая с особенностями и преимуществами. Тем не менее, создание и совершенствование информационно-поисковых систем - постоянный процесс, и в будущем можно ожидать еще более удобного и точного поиска информации. Однако, необходимо помнить о защите личной информации пользователей и других этических аспектах использования ИПС.
Список источников
Наилучшей наградой за наш труд будет ваша подписка - это признание нашей работы и мотивация для дальнейших достижений.