@just_data_science October 24, 2017
Спойлер
Начинающие датасайентисты действительно любят эту историю, но дело не в фильме.
Вспомним, что такое Титаник?
Это такая огромная лодка, плывшая из Европы в Америку, да чуток не доплывшая. По тем временам - самая шикарная и безопасная, как наивно считалось. Настолько шикарная и безопасная, что даже когда она тонула - мало кто в это поверил. В основном все продолжали попивать виски под живую музыку в люксовых залах. Когда же она таки утонула - катастрофа эта оставила неизгладимый след в истории человечества. Как так, заоблачный ценник за билет, сливки общества, торжество инженерной мысли - а потонули как пьяные рыбаки на дырявой шлюпке в шторм? Этот парадокс и вызывает живой интерес к печально известному кораблю.
А датасайентисты тут причем?
Катастрофа настолько потрясла людей, что после нее остался огромный массив информации. Сотни профессиональных историков и любителей собрали много различных сведений о корабле, пассажирах, маршруте. И теперь вся эта информация доступна каждому, у кого есть интернет. А датасайентистов хлебом не корми - им информацию подавай.
И что датасайентисы делают с информацией о Титанике?
Берут список пассажиров и предсказывают вероятность, кто из них выжил, а кто нет. Вы наверное думаете "опять автор троллит", но нет, сейчас я совершенно серьезно.
Есть такой сервис - kaggle.com (кэггл, "кегля"), обитель датасайенса. Наборы данных, конкурсы, задачи. И одна из популярных задач для новичков - как раз предсказание списка выживших на Титанике. С её помощью изучают различные алгоритмы машинного обучения. Если интересно, то вот она.
Ну-ка, ну-ка...
Есть 2 файла с данными о пассажирах. О каждом из них есть какая-то информация - пол, класс каюты, тариф, наличие совместно едущих родственников и еще несколько подобных полей. Отличие между файлами - в одном указано, выжил ли пассажир, а в другом - нет. Нужно с помощью первого файла сделать такую модель, чтоб скормив ей второй файл - она как можно правильнее угадала, кто из этого файла выжил, а кто нет. Для проверки файл с ответом отправляют на kaggle.com и получают оценку.
"Сделать модель" - это же не про моделей, а про эти ваши нейросети?
Верно. И не только нейросети, но и любые другие методы машинного обучения - случайный лес, градиентный спуск, наивный Байес, и многие другие. Не пугайтесь столь грозных названий, они милые - я вам о них постепенно расскажу.
Удобство задачи про Титаник в том, что файлы маленькие, но при этом данных в файлах достаточно для обучения. В реальных задачах файлы часто весят гигабайты (как видеофильм в хорошем качестве), и не каждый компьютер подойдет для работы с такими данными. А для обучения на Титанике можно использовать любой компьютер, да что там - хватит даже мощности смартфона. Отличный вариант для старта.
Вместо заключения
А теперь - о грустном. Чтобы выжить на Титанике, желательно было быть женщиной или ребенком, в крайнем случае - пассажиром 1 класса. Титаник тонул медленно, капитан приказал соблюдать приоритет при посадке на спасательные шлюпки, и оно соблюдалось с оружием в руках. К сожалению, исследования других задокументированных кораблекрушений показали, что такое правило сработало только на Титанике, а обычно в суматохе катастрофы выживали сильнейшие.