Мало кто помнит знает, что много-много лет назад тот же Яндекс проводил соревнования по скоростному поиску в Интернете. Вы можете найти информацию об этом сами знаете как. Интересны в том числе задания, которые предлагали выполнять участникам. Часть из них сейчас также в открытом доступе и при желании можно почувствовать себя покорителем всемирной паутины без смс и регистрации. Заодно удастся понять, насколько качественно получается использовать мощь силу интернета: вон какой хренью люди могут интересоваться.
Ясен пень, побеждал тот, кто знал, как эффективно работать с любимым поисковиком. И эффективно работать не равно тому, чтобы вводить в запрос как можно больше любых слов-ассоциаций по теме.
Конечно, в настоящее время пользователи все больше склоняются к нейронным сетям. А чего — удобно: вводишь в чате свой вопросик, словно у кореша спрашиваешь, а он тебе даже что-то отвечает. И не так важно — хороший то ответ или нет, главное — с уважением. Однако следует помнить, что за дружелюбным и вроде как правдоподобным ответом нейросети может скрываться совершенно глупая ерунда, которую потом надо старательно проверять в других источниках. А вот их надо будет найти более «традиционными» способами.
В общем о поиске сегодня поговорим. Эффективном поиске. А героем повествования, как вы уже догадались, определим «Яндекс».
Как работает поисковая система
Алгоритм или точнее набор таковых тут весьма хитрый. А еще разработчики Яндекса любят обзывать свои детища по названиям городов («Минусинск», «Баден-Баден» и т. д.), чтобы никто не догадался. Впрочем, общая парадигма едина для всех продуктов такого рода.
Пока вы спите, неутомимые роботы бороздят просторы Большого театра сети в поисках ссылок и информации. Они скачивают и индексируют содержимое всех найденных сайтов (особенно если владельцы последних ленятся управлять доступом). Найденные ссылки используются для прокладки новых маршрутов.
Индексация включает в себя анализ содержимого по определенным правилам, а также получение других параметров, которые будут учитываться при акте поиска. Результат заносится в базу данных (индекс).
Когда вы вводите свой запрос, система ищет в базе релевантные ссылки, сортирует их по степени соответствия введенному, пытается побороть возможный неоплаченный спам… чего только еще не делает, но выдает-таки страницу с результатами и «правильной» рекламой до кучи.
Конкретные алгоритмы, конечно, секретны. Даже, если что-то полезное для многочисленных сторонних халявщиков маркетологов утекает, то вслед за недолгой эйфорией обязательно наступает жестокая печаль. Правила меняют, ибо зарабатывать должны не те, кто хочет, а кому разрешили. Ну и в полный рост царит дискриминация фильтрация: слишком переоптимизированные сайты, хоть и выполненные с учетом официальных требований поисковиков, тоже не пройдут.
Говорят, что при выдаче учитываются релевантность, авторитетность и качество сайта (например, пользователи его быстро не покидают), а также куча персональных данных поведенческих факторов конкретных искателей истины информации. Автор довольно часто убеждался, что если при движении в машине по навигатору что-то брякнуть не подумав, то потом во всех поисках (и не только) тебе обязательно будут рекламировать нечто, с этим связанное.
Но то бизнес, с ним придется мириться. Однако, предыдущие запросы также учитываются. То есть, если искать долго фильмы, а потом ввести «Капитанскую дочку», то первые позиции будут занимать ссылки на экранизацию, что может помешать быстро найти произведение или его краткое содержание.
Теоретически это можно отключить настроить. Получив очередную выдачу, внизу можно обнаружить кнопку «Настройки» (или перейти к ним по прямой ссылке).
В настоящее время поисковая система обрабатывает запросы на естественном языке, что подразумевает морфологический, синтаксический, семантический и прочие анализы всего, что вы вводите. Круто и то, что на конкретный вопрос ответ может быть извлечен из текста страницы соответствующего сайта.
Ну и да, если вдруг не знали: немного снизить раздражение от всего лишнего при поиске можно с использованием когда-то девственно чистой страницы поисковой строки: «https://ya.ru». Увы, теперь она тоже заполнена всякими карточками, но хотя бы не настолько, как основания стартовая страница сервиса.
Специальные операторы поиска
Ну собственно, к главному.
В поисковую строку можно вводить специальные операторы, на первый взгляд ерундовые, но на самом деле способные хорошо уточнить запрос и быстро получить более точные результаты.
1. Итак, вам нужно найти такие страницы, где слова стоят в определенном порядке. А система словно издевается и выдает все вокруг и около. Используйте кавычки «» (точное соответствие) и можете сравнить результаты выдачи.
2. А если какое-то слово вылетело из головы? Оператор звездочка позволяет подставить любые пропущенные слова (работает только совместно с оператором точного соответствия).
3. Поиск на конкретном сайте — тоже очень полезная штука. Нужно всего лишь использовать оператор site: и будет счастье.
Кроме того, можно использовать операторы url: (поиск по страницам, размещенным по заданному адресу), host: (поиск по страницам, размещенным на данном хосте), rhost: (поиск по страницам, размещенным на данном хосте, имя хоста в обратном порядке), domain: (поиск по страницам, расположенном в заданном домене).
4. А теперь представьте, что нужно найти конкретные методичку или учебник, а не перелистывать множество пустых сайтов, что предлагают искомую откуда-то скачать или, не дай боги, купить. Используйте mime: и тип файла, а затем название — возможно случится счастье.
Оператор поддерживает довольно много форматов файлов, например: doc, pdf, rtf, xls, ods, ppt, odp, swf, odt, odg. Впрочем, надо уточнять актуальность перечня. Знаю, что форматы мультимедиа в свое время исключили. Ибо не фиг.
5. Чтобы искать точное слово без учета морфологии (по умолчанию ищутся слова с учетом различных чисел, падежей, времен) используйте оператор восклицательного знака.
Тут хочется отметить следующее — первые, рекламные ссылки, для двух запросов практически не отличаются. Разница появляется примерно с середины страницы.
6. Для поиска с учетом регистра используйте оператор из двух восклицательных знаков.
7. Сузить результаты поиска помогают логические операторы.
По умолчанию (но это не всегда точно) система между всеми вводимыми вами словами запроса проставляет логическое И, что позволяет находить страницы, содержащие их все. Когда таковых нет, то ключевые слова будут в разном порядке исключаться. Если слово обязательно должно содержаться на странице, то следует использовать знак плюса. Хотя по умолчанию оператор тоже может быть системой проигнорирован, в зависимости от контекста. Поиск стал слишком умным.
8. Если вам нужно получить информацию по теме, но так, чтобы результат не содержал конкретные слова, то следует использовать для этого минус (оператор НЕ) перед нежелательными словами. Очень важный оператор, как на мой взгляд. Позволяет с разной степенью успешностью бороться с рекламой (увы, не всей).
Если поставить оператор перед цифрой, то Яндекс будет искать отрицательное число. Чтобы оператор сработал, заключите фрагмент с цифрами в кавычки.
9. Используйте оператор ИЛИ (в Яндексе: |) если вы ищете страницы, которые содержат хотя бы одно из ваших ключевых слов, ну или два (если это возможно) вместе.
10. Оператор квадратные скобки фиксирует порядок ключевых слов в поиске. И самый распространенный пример связан с поиском билетов, когда порядок населенных пунктов должен быть зафиксирован. Но, конечно, использовать его можно более творчески.
11. Оператор lang: позволяет фильтровать найденные страницы по языку. После двоеточия нужно указать двухбуквенный код языка: ru — русский, en — английский, de — немецкий и т. д.
12. Очень крутой оператор data: позволяет показывать станицы, созданные (добавленные) в заданный период, то есть отсекать заведомо, например, заведомо не актуальную информацию.
Надо также упомянуть, что после выдачи поискового запроса есть возможность настроить некоторую фильтрацию без использования операторов.
Пример использования сложных операторов
На самом деле, если вдуматься в суть процедуры поиска, то она удивительным образом перекликается с логикой. Результат будет напрямую зависеть от того — дружите ли вы с этой областью знаний или испытываете к ней личную неприязнь.
Потому как ищите вы информацию о чем-то, что может сводиться к логическому понятию, то есть некоторой форме мышления, которая включает существенные признаки предмета или ситуации и исключает несущественные. Нахождение критериев — это есть операция определения, что в широком смысле позволяет раскрыть содержание искомых данных.
Давайте найдем какой-то алгоритм для своего продукта, пусть это будет пузырьковая сортировка.
1. Сначала установим точный критерий поиска через оператор кавычки, того, что знаем точно — «пузырьковая сортировка». Возможно, для данного примера этого вообще будет достаточно. Уже на этом этапе можно получить некоторый общий результат, на котором и зависнуть на длительное время.
2. Но нам нужен конкретный код на определенных языках, добавим оператор ИЛИ (PHP | C++).
3. Можно ли сузить зону поиска еще каким-то удобным для нас сайтом, например, site: habr.com? Давайте, посмотрим.
4. Лучше всего, чтобы в заголовке присутствовало слово: title:обучение, ведь по идеи хотелось бы разобраться в вопросе досконально.
5. Старая информация, предположим, нас не интересует, ограничим созданные страницы периодом, например, с 2022 по 2025 годы.
6. Наконец, надо бы исключить что-то явно лишнее… но для этого придется прошерстить, наверное, выборку. А так, минусуйте лишнее чаще.
Ну вот как-то так — пользуйтесь, экспериментируйте и находите только нужную информацию.
Источники, дополнительная информация:
1. Статья Яндекс. Символы и операторы (https://yandex.ru/support/direct/ru/keywords/symbols-and-operators?ysclid=m7lq2qilwd569421242). Дата обращения 20.02.2025.
2. Статья Яндекс. Как уточнить поиск. Использовать операторы в запросе (https://yandex.ru/support/search/ru/query-language/search-context). Дата обращения 20.02.2025.
Ознакомиться с содержанием журнала.
Уважаемые коллеги, желаю хорошего дня. Подписывайтесь, чтобы иметь возможность обсудить со мной вашу задачу в комментариях. Буду рад лайку, альтернативному мнению или истории по теме статьи.
ПРЕДУПРЕЖДЕНИЕ №1: Оценки, суждения и предложения по рассматриваемым вопросам являются личным мнением автора.
ПРЕДУПРЕЖДЕНИЕ №2: Техническая информация, представленная на сайте, не является официальной и предоставлена только в целях ознакомления. Владелец сайта не несет никакой ответственности за риски, связанные с использованием информации, полученной из данного источника.
Все изображения, если не указано иное, либо выполнены автором, либо взяты из открытых источников.