Наконец улеглись эмоции вокруг крупной утечки исходного кода «Яндекса», часть которого была выложена в публичный доступ 25 января. Настало время отделить хайп и подвести итоги, сделать полезные выводы из анализа кода.
- Введение
- Актуальность «слитых» данных
- Содержимое утечки
- «Яндекс» или Google: что выбрать?
- Поисковый механизм «Яндекса» изнутри
- Факторы ранжирования
- Применяет ли «Яндекс» прослушивание?
- Анализ содержимого утечки
- Необычные признаки ранжирования в «Яндексе»
- Выводы
Введение
Самой громкой новостью последних недель стала утечка из репозитория исходного кода «Яндекса». Сегодня называют несколько разных причин появления этих данных в публичном доступе. Официально «Яндекс» объявил, что утечка произошла в результате кражи данных бывшим сотрудником компании. Это не противоречит фактам: неизвестный создал для этого новый аккаунт и выложил данные анонимно в свободный доступ в виде торрента на одном из онлайн-форумов. В то же время многое указывает, что выкладка была сделана не ради мести или корысти, а по политическим мотивам. Это — ещё один знак для служб ИБ, что данный мотив является сегодня одним из главных для мониторинга.
Как уже сообщалось, объём обнародованного кода составил примерно 45 ГБ. Данные быстро «расползлись» по сети, поэтому фрагменты теперь доступны экспертам и в обычном, не теневом вебе.
В открытый доступ попали только данные относящиеся к алгоритмической части программных механизмов «Яндекса», в том числе его поисковой системы. Они позволяют лучше понять особенности работы поисковой системы, но не дают возможности сделать клон. Нет там также и персональных данных, стоп-слов, обученных языковых моделей, словарных фраз для анализа контента.
«Слив» такого масштаба можно считать исключительным. Подобный инцидент встречался ранее только в 2006 году, когда в публичный доступ попал исходный код веб-сервиса AOL. Тогда его изучение позволило многим воспользоваться техническими инновациями AOL. В определённой мере это способствовало продвижению инноваций на рынке.
Нынешняя утечка не раскрывает «патентованных» секретов. Несмотря на обилие кода, контент подобран грамотно. Это может косвенно свидетельствовать в пользу политической версии инцидента.
«Яндекс» подтвердил факт кражи и достоверность данных. Компания извинилась перед своими клиентами и всеми, кто мог пострадать из-за этой утечки. «Яндекс» также опубликовал результаты внутреннего расследования, официально заявив, что обнародованные фрагменты кода не несут угрозы для безопасности и работоспособности сервисов. Кроме того, «Яндекс» признал, что были серьёзно нарушены политики ИБ и этические принципы.
Приглашаем принять участие в бесплатной онлайн-конференции, которая пройдёт 15 февраля в 11:00. Тема: Российский рынок облачных технологий. Подробнее