Когда нам нужно найти что-то в Интернете, мы автоматически открываем Google или Bing. Наверное, так устроено наше подсознание, и мы доверяем именно этим системам, которые дают нам искомые результаты. Но допускаем ли мы вероятность того, что информация, которую мы ищем на самом, может быть доступна в «глубокой сети» (Deep Web). Что именно там находятся настоящие ответы на наши запросы?
Наиболее популярные поисковые системы хранят подробные отчеты о наших действиях в Интернете. Если вы не хотите, чтобы Google знал о ваших онлайн-поисках, нужно попытаться сохранить анонимность.
Но как быть с огромными объемами информации, которые хранятся в недрах «глубокой сети» (также известной как «глубокая паутина», «невидимый Интернет» и т. д.). Как получить данные, к которым нет доступа у обычных поисковых систем?
Считается, что объемы контента в «скрытом Интернете» примерно в 50 раз превышают количество информации, доступной в открытых источниках.
«Тайный» контент же остается незамеченным для обычных поисковых систем. Используя поисковик вроде Гугл или Яндекс, вы инициируете общий поиск. Но для подобных систем недоступны личные профили людей с подробным перечнем данных, размещенные на статических веб-сайтах.
Почему Google не работает в Deep Web?
Основная причина, по которой Google не предоставляет пользователям «глубокий» контент, заключается в том, что этот контент не индексируется в обычных поисковых системах. Следовательно, обычные поисковые системы не будут показывать результаты или индексировать такой документ или файл. Его содержимое находится за HTML-формами.
Обычные поисковые системы сканируют файлы, находящиеся в открытом доступе, а поисковые запросы выводятся из взаимосвязанных серверов. Связанные серверы позволяют вам регулярно взаимодействовать с источником информации, но, когда дело доходит до «даркнета», этого не происходит. Все находится за завесой и остается скрытым внутри сети TOR Network, которая обеспечивает безопасность и конфиденциальность.
Только 4 процента интернет-контента видны широкой публике, а остальные 96 процентов скрыты в «глубокой сети».
Теперь рассмотрим, по каким причинам Гугл не обрабатывает эти данные, или почему «скрытый» веб-контент не индексируется. В основном, эта информация либо незаконна, либо носит негативный характер для общества в целом. Среди этого контента в больших количествах содержится порно, пропаганда насилия, употребления наркотиков, закрытая информация военного характера, хакерские программы и т. д.
Исключения для роботов
Файл robot.txt обычно используется для назначения веб-сайту файлов для записи, регистрации и индексации.
«Файлы-исключения для роботов» - это документы настройки параметров веб-сайтов и страниц в Интернете таким образом, чтобы они не индексировались обычными поисковыми системами, использующими автоматический поиск. Таким образом, эти страницы остаются закрытыми от Google и Yahoo.
А теперь рассмотрим несколько поисковиков, заточенных на поиск информации в скрытой части Интернета, и использующих для этого нестандартные принципы и механизмы.
Список лучших поисковых систем для работы с Deep Web
Pipl
Эта система, также, как Google или Yahoo, использует поисковых роботов, но ее боты способны гораздо глубже проникать в недра «невидимого Интернета». Роботы Pipl ищут информацию в самых разных базах данных, способны найти не только личные данные, контакты человека, но и информацию юридического характера, научные исследования и множество различных фактов, недоступных широкому кругу лиц.
Pipl использует расширенные алгоритмы ранжирования и анализ языка, благодаря чему пользователь получает в выдаче варианты, более близкие к его запросу, чем в обычных поисковых системах. Вкупе с расширенной областью поиска возможности системы позволяют найти ответ на, без преувеличения, любой вопрос.
MyLife
Система MyLife предоставляет что-то вроде сводной информации из всех социальных сетей, в которых зарегистрирован каждый конкретный человек. В итоге на каждого пользователя формируется виртуальный профиль-досье, что дает возможность узнать личные данные, профессию, место работы и проживания и т. д. Кроме того, там же можно найти фото, видео, данные о перемещениях человека и другие «следы» его деятельности, если информация о них когда-либо попадала в Интернет.
Учитывая, что почти каждый житель развитых стран имеет личную страничку хотя бы в одной из социальных сетей, на каждого можно найти тот или иной объем информации. Количество таких «портфелей» только в США достигает 200 тысяч.
Yippy
На самом деле Yippy – это система метапоиска (она получает результаты, используя другие веб-ресурсы). Я решил включить Yippy в этот список, поскольку он может взаимодействовать с девайсами, которые используют веб-клиенты, вроде электронной почты, браузерных игр и т. д.
В отличие от Google, этот сервис не хранит личных данных пользователей, благодаря чему они могут не беспокоиться за свою конфиденциальность. Это Metasearch-система, и она зависит от других ресурсов, выдавая показывая результаты на их основе.
Yippy не подойдет для пользователей, привыкших искать информацию через Google, потому что эти системы работают по разному принципу. Например, если вы ищете «марихуану», Yippy выдаст ресурсы, описывающие реальные «эффекты марихуаны», а не страницу Википедии и новостные ленты.
SurfWax
Для того, чтобы работать с SurfWax, на сервис нужно подписаться. У системы есть куча особенностей помимо поиска, не совсем привычного современному пользователю.
Согласно информации с веб-сайта, название SurfWax возникло от того, что «на волнах воск помогает серферам лучше держаться на доске, а для веб-серфинга SurfWax обеспечивает лучший контроль и обработку информации». Поисковые роботы сервиса оптимизируют процесс, что позволяет получить более релевантную выдачу.
Wayback Machine
Wayback Machine предоставляет вам расширенный доступ к информации о URL-адресе. Это интернет-архив, который позволяет пользователям публиковать контент в цифровом виде, выкладывая его в общий доступ – в открытости данных заключается главная цель сервиса. Некоторая часть информации собирается системой автоматически.
Google Scholar
Еще одна поисковая система от интернет-гиганта, работающая, однако, по другому принципу, и имеющая другие цели. Google Scholar помогает пользователям найти ссылки на конкретную обучающую информацию, и интерфейс сервиса рассчитан на более детальный поиск не только по названию, но и по авторам, источникам и т. д.
Например, вбив в поисковик «Психология» и выбрав в качестве источника «Оксфордский университет», пользователь сможет выбрать нужные работы в конкретной области, причем выполненные на базе конкретного научного центра.
DuckDuckGo
Систему DuckDuckGo можно назвать самой честной и «дружелюбной» - она обладает простым интерфейсом, мощными поисковыми роботами, способными «достать» информацию из самых глубин Интернета, но, при этом, никак не отслеживает действия пользователя, не хранит личные данные и обеспечивает полную конфиденциальность.
Вы можете настроить поисковик и даже улучшить его в соответствии с результатами. Поисковая система заточена на качество, а не на количество. Акцент делается на лучших результатах. Система работает более чем с 500 независимыми источниками, включая Google, Yahoo, Bing и все другие популярные поисковые системы.
Fazzle
Еще одна мета-индексная система, доступная на английском, французском и голландском языках. Предназначена для быстрого получения результатов. Элементы запроса включают изображения, документы, видео и, технический документ и многое другое.
Большая часть страниц, выдаваемых поисковиком, могут быть платным промо, тем не менее, Fazzle высоко котируется среди других Deep Web-систем.
Not Evil
«Не злые» поисковые системы, созданные не для получения прибыли, выживают на взносы и пожертвования и, похоже, они получают достойную поддержку. Обладая высокой надежностью в результатах поиска, этот сервис обладает функциональностью, которая является высококонкурентной в сети TOR.
Здесь нет навязчивой рекламы или отслеживания действий пользователя, а благодаря продуманным и постоянно обновляемым алгоритмам поиска легко найти любую информацию. При этом вы можете сэкономить много времени и сохранить полную конфиденциальность.
Этот поисковик ранее назывался TorSearch.
Start Page
Start Page доступна с 2009 года. Это имя было выбрано для того, чтобы людям было проще его запомнить и вбить при необходимости в адресную строку.
Startpage.com и Ixquick.com одинаковы и управляются одной компанией. Это частная поисковая система, обеспечивающая высокий уровень защиты информации.
Это одна из лучших поисковых систем, когда дело доходит до конфиденциальности. В отличие от популярных поисковиков, Startpage.com не записывает ваш IP-адрес и сохраняет вашу историю поиска в секрете.