Найти тему
Skillfactory

Как стать дата-сайентистом, чтобы научно анализировать сериалы и претендовать на зарплату свыше 170 000 рублей

Оглавление

Когда заходит речь о Big Data, всем сразу на ум приходит что-то серьезное. Например, крутые инженеры, высчитывающие алгоритмы рекомендаций контента для Netflix или Spotify, а может быть ученые, которые оценивают вероятность столкновения Земли с очередным смертоносным астероидом.

Все это, конечно, существует, но никто не запрещает использовать большие данные и для чего-то веселого. К примеру, с их помощью можно детально проанализировать культовый мультсериал «Симпсоны».

Сегодня мы используем всю мощь Data Science и узнаем, кто самый болтливый герой шоу, почему Нед Фландерс не самый добрый персонаж и как с годами менялась популярность «Симпсонов» у телезрителей.

-2

Кто за главного в Спрингфилде

Для начала рассмотрим реплики 15 главных и второстепенных персонажей. Чтобы вам было удобнее, мы собрали информацию на одной схеме. Правило простое: чем больше кружок, тем более болтливый герой.

-3

Как и ожидалось, самыми разговорчивыми, а значит и наиболее важными персонажами оказались представители семейства Симпсонов. Есть только одно интересное исключение: отец Гомера – дедушка Симпсон. Хоть он и член семьи, но говорит даже меньше некоторых второстепенных героев. Этому не стоит удивляться: старина Эйб больше любит поспать, чем болтать.

Но еще интереснее посмотреть на динамику общения персонажей. Для этого мы сделали специальную сетку. Чем светлее квадрат на пересечении, тем чаще герои взаимодействуют друг с другом.

-4

Например, можно заметить, что Гомер чаще общается со своей женой, чем с детьми. Да и в целом почти вся коммуникация происходит внутри семейства Симпсонов, а с другими жителями Спрингфилда герои общаются значительно реже.

Кто главный добряк и ворчун «Симпсонов»

Чтобы пересмотреть все 32 сезона и дать оценку каждой сказанной фразе, понадобятся месяцы или даже годы. Поэтому мы пошли на хитрость и воспользовались VADER Sentiment Analysis – специальным инструментом для выяснения эмоциональной окраски фраз персонажей.

-5

Мы ожидали увидеть в топе Неда Фландерса, но безжалостные алгоритмы решили иначе. Самыми «добрыми и позитивными» персонажами оказались циничные и постоянно курящие учительница Барта Эдна Крабаппл-Фландерс и сестра Мардж – Пэтти Бувье.

Возможно, дело в том, что алгоритм рассчитан на анализ постов и комментариев в социальных сетях. В случае оценки позитивных фраз он мог не понять иронии и цинизма персонажей и дать неверный результат.

А вот с «ворчунами» VADER Sentiment Analysis справился получше: в самом низу списка находятся школьный хулиган Нельсон и вечно злой садовник Вилли.

Место действия имеет значение

С персонажами все понятно, но как быть с локациями? Мы проанализировали основные места, где бывают герои, и количество фраз, которые они там произносят. Тут все просто: больше сказанных героями слов → больше квадрат с местом действия.

-6

Сразу оговоримся, что мы убрали дом Симпсонов из исследования, иначе бы он занял все свободное пространство.

Как и ожидалось, победили 3 основные локации:

  • школа (основное место обитания Барта и Лизы);
  • АЭС (место работы Гомера);
  • бар «У Мо» (место отдыха старшего поколения после работы).

Перенесемся из Спрингфилда в реальный мир

Пришло время для общей статистики мультсериала.

-7

Чаще всего обычная серия шоу собирает перед экранами 8 млн зрителей. Но все же находятся и эпизоды, привлекающие свыше 30 млн фанатов!

Из этого графика понятна усредненная популярность выпусков мультсериала, но хотелось бы узнать, как она менялась с годами. Для этого мы подготовили другую диаграмму. Полностью включить ее в статью не получится – про семейство Симпсонов вышло уж слишком много эпизодов. Поэтому ограничимся отрезком в 25 серий с 288 по 313.

-8

Синий цвет на схеме означает рейтинг серии на портале IMDb, а оранжевый – количество просмотров среди жителей США.

Исходя из этих данных, можно сказать, что «Симпсоны» были на «хайпе» первые 8 сезонов. С 9 по 11 количество просмотров очень просело, но на 12 ситуация немного исправилась. Да так, что у серии, которая по иронии называется «Худший эпизод», была одна из самых больших аудиторий в сезоне. С тех пор «Симпсоны» показывают постоянное снижение интереса.

Однако рейтинг сериала остается на примерно таком же уровне, каким был всегда. К тому же «Симпсонов» транслируют уже больше 30 лет и для нескольких поколений шоу стало культовым. Поэтому, как нам кажется, хоронить ситком о похождениях желтокожих жителей Спрингфилда еще очень рано.

Как научиться делать такие крутые исследования

Может вы хотите узнать, как часто произносили жаргонное словечко «ice» в сериале «Во все тяжкие» или сколько раз Доминик Торетто из серии фильмов «Форсаж» упомянул семью и семейные ценности? Многие приравнивают работу с Big Data к какому-то тайному знанию или черной магии, которой могут обучиться только избранные. На самом деле это далеко не так, получить профессию Data Scientist может практически любой человек.

-9

На курсе Data Scientist от онлайн-школы SkillFactory вы узнаете, как использовать инструменты «больших данных» для собственных исследований. Кроме того, здесь дают знания, которые позволят в дальнейшем получить перспективную и высокооплачиваемую работу.

За 2 года обучения на курсе вы:

  • научитесь программировать на Python и использовать базы данных SQL;
  • изучите основы Linux, математическую статистику, алгоритмы и структуры данных;
  • освоите библиотеки для анализа данных, модели машинного обучения и многое другое.

При этом занимает учеба всего 6 часов в неделю, поэтому не нужно оставлять свою работу или забрасывать хобби. А по итогу курса вы получаете мощное портфолио из 13 кейсов на GitHub и можете претендовать на зарплату свыше 170 000 рублей в месяц.

-10

Мы верим, что Data Science и аналитика – это не какие-то особые таланты, которые человек получает при рождении. Даже если вы считаете себя безнадежным гуманитарием, не стоит отчаиваться.

К нам на курсы приходят самые разные люди без технического бэкграунда: менеджеры, музыканты, редакторы, преподаватели. И у них отлично получается освоить Data Science. Все благодаря программе, которая совмещает практические и теоретические занятия.

Получить все знания можно уже сейчас в онлайн-школе SkillFactory. Переходите по ссылке и записывайтесь на курс Data Scientist. Специально для читателей Яндекс.Дзен действует скидка 50 % на любой курс SkillFactory. Воспользуйтесь промокодом DZEN и учитесь за половину стоимости! Не откладывайте получение актуальной и перспективной профессии на потом >>>