Найти тему
Академия Яндекса

Четыре доклада по сбору, хранению и обработке данных

Четыре видео для разработчиков, которые хотят собирать, хранить и обрабатывать данные, «как в Яндексе».

Команды Яндекса по-прежнему используют множество инструментов от других компаний — однако у нас всё больше систем, написанных собственноручно (in-house). История повторяется раз за разом: мы пишем систему, исходя из растущих внутренних потребностей, а затем понимаем, что она была бы полезна не только нам (а возможно, даже не только в IT). Тогда мы выпускаем её как продукт. Таких инструментов уже десятки. Мы выбрали из них те, которые тесно связаны с большими данными.

Ради качественных данных компании готовы тратить огромные деньги и ресурсы. Но данные для многих задач можно собрать самостоятельно — с помощью Толоки. Ежедневно десятки тысяч людей делают задания в Толоке: оценивают релевантность, классифицируют контент, отмечают объекты на фото. Им можно поручить и ваши задания: тем самым вы соберёте собственный датасет. О Толоке рассказывает Артём Григорьев, который руководит её разработкой.

Из Матрикснета (метода машинного обучения, разработанного для задач Поиска в 2009 году) выросла библиотека с открытым кодом CatBoost. Она превосходит аналоги по качеству и повсеместно применяется у нас в компании. Потренироваться в её использовании можно прямо по ходу этого видео. Автор — Никита Дмитриев из команды CatBoost. В своём мастер-классе Никита показал, как с помощью библиотеки классифицировать данные. Но это только один из примеров — вы познакомитесь с опциями, которые пригодятся во множестве задач.

А ещё данные нужно эффективно и дёшево хранить. У Яндекса две собственных базы данных. В последние десять лет мы делаем СУБД ClickHouse, которая предназначена в первую очередь для аналитических запросов: изначально ClickHouse разрабатывалась для нужд Яндекс.Метрики. Эта СУБД, как и CatBoost, доступна в опенсорсе. Посмотрите лекцию Александра Зайцева из компании LifeStreet об использовании ClickHouse в реальных приложениях — мы специально выбрали докладчика не из Яндекса, чтобы показать взгляд со стороны.


Но самое свежее, что Яндекс предложил разработчикам, — это newSQL-база данных Yandex Database. Пусть вас не смущает, что её релиз состоялся только пару недель назад. Внутри компании YDB используется уже несколько лет: в Поиске, Алисе, на портале Авто.ру и в других проектах. Автор доклада о YDB — руководитель отдела разработки систем хранения и обработки данных Андрей Фомичёв. Вы узнаете, как мы создали Yandex Database, чем она отличается от других баз и для каких задач она лучше всего подходит.