Каждая научная дисциплина имеет один или несколько «глубоких» вопросов, которые определяют ее повестку дня. Например, вся астрофизика построена вокруг вопросов о происхождении Вселенной. А на вопросы о происхождении жизни отвечает биология. Каковы же основные вопросы науки о данных? Расскажут преподаватели магистратуры направления Науки о данных НИТУ МИСиС – ведущего образовательного учреждения России.
Что делает науку о данных собственно наукой? Есть ли проблема, уникальная для науки о данных, которая, не была бы решена или поставлена какой-либо из составляющих её дисциплин, например, информатики и статистики? Да, есть как минимум 10 направлений исследований, которые характеризуют Data Science. Это важнейшая «десятка», для широкой программы исследований в области науки о данных, над которой мы работаем со студентами магистратуры – это люди, которым мало изучения Data Science или уроков в YouTube.
- Научное понимание глубокого обучения. Как бы мы ни восхищались поразительными успехами глубокого обучения, нужно много работать над пониманием, почему глубокое обучение работает так хорошо, и как проверить, что оно будет хорошо выполнять поставленную задачу на новых входных данных. Глубокое обучение - это пример того, как эксперименты в какой-либо области намного опережают любое теоретическое понимание.
- Причинное рассуждение. Машинное обучение – мощный инструмент для поиска закономерностей и изучения корреляций, особенно в больших наборах данных. Хотя внедрение машинного обучения открыло множество плодотворных областей исследований в области экономики, социальных наук и медицины, в этих областях требуются методы, выходящие за рамки корреляционного анализа и позволяющие решать причинно-следственные связи.
- Ценные данные. Данные могут быть ценными по одной из трех причин: сбор данных стоит дорого; набор данных содержит редкое событие (низкое отношение сигнал/шум); или набор данных небольшой и ориентированный на конкретную задачу. Хороший пример ценных данных - это использование для их получения дорогих научных инструментов, например, Большой синоптический обзорный телескоп, Большой адронный коллайдер, детектор нейтрино IceCube на Южном полюсе.
- Множественные разнородные источники данных. Для некоторых проблем мы можем собрать много данных из разных источников, чтобы улучшить наши модели. Например, чтобы предсказать эффективность конкретного лечения рака у человека, можно построить модель на основе двумерных клеточных линий мышей, трехмерных клеточных линий мышей или ДНК раковых клеток человека. Современные методы науки о данных пока не могут справиться с объединением нескольких разнородных источников данных для построения единой точной модели. Целенаправленное исследование, объединяющее несколько источников данных, даст исключительный эффект.
- Анализ зашумленных и/или неполных данных. Реальный мир – запутанный и сложный, и мы часто не имеем полной информации. Тем не менее, специалисты по данным должны строить модели на основе таких данных, чтобы делать прогнозы и выводы. Примером этой проблемы является запланированное использование дифференциальной конфиденциальности для данных переписи населения, когда к результату запроса намеренно добавляется шум для сохранения конфиденциальности лиц, участвующих в переписи. Способность машинного обучения лучше отделять шум от сигнала может повысить эффективность и точность этих выводов.
- Надежность искусственного интеллекта. Мы наблюдаем развитие искусственного интеллекта (ИИ) и машинного обучения в критически важных областях, таких как автономные транспортные средства, правосудие, здравоохранение, наем жилья, управление человеческими ресурсами, общественная безопасность, где решения ИИ напрямую влияют на человеческие жизни. Следовательно, существует растущая обеспокоенность относительно того, можно ли доверять этим решениям как правильным, надежным, безопасным и справедливым, особенно при риске внешних атак.
- Системы с интенсивным использованием данных. Традиционные вычислительные системы ориентированы на вычислительную скорость и мощность: чем больше циклов, тем быстрее может работать приложение. Сегодня в центре внимания приложений, особенно в естественных науках (например, астрономии, биологии, климатологии, материаловедении), являются данные. Даже с высокой скоростью современных процессоров и гибкой вычислительной мощностью создание точных прогнозных моделей может занять недели. Однако приложениям требуется работа в режиме реального времени. В показателях производительности важно учитывать не только пространство и время, но и потребление энергии. Короче говоря, нам нужно переосмыслить проектирование компьютерных систем, сосредоточив внимание на данных (а не на вычислениях).
- Автоматизация внешних этапов жизненного цикла данных. Ранние этапы жизненного цикла данных по-прежнему трудоемки и утомительны. Специалистам по обработке данных, использующим как вычислительные, так и статистические методы, необходимо разработать автоматизированные методы, которые касаются очистки данных и обработки данных, без потери других желаемых свойств, например точности, надежности, модели.
- Конфиденциальность. Сегодня чем больше у нас данных, тем лучше модель, которую мы можем построить. Один из способов получить больше данных - обмениваться данными. Однако во многих случаях нужно сохранять конфиденциальность набора данных каждой стороны. Примером является построение модели для прогнозирования заболевания. Если бы все врачи делились историями болезни, мы могли бы построить лучшую прогностическую модель; но помня о врачебной тайне, больницы не могут передавать эти записи. Важно создавать и использовать безопасные многосторонние вычисления, гомоморфное шифрование, доказательства с нулевым разглашением и дифференциальную конфиденциальность, как часть точечного решения проблемы.
- Этика. Наука о данных поднимает новые этические проблемы. Примеры этических вопросов включают в себя способы выявления и устранения расовых, гендерных, социально-экономических или других предубеждений в моделях.
Вам все это интересно?
Мы уверены, что до этого места материал от НИТУ МИСиС дочитали те, кто действительно интересуется проблемами Data Science. Если вы в их числе, то приглашаем вместе поработать над этими и другими глобальными вопросами науки о данных в магистратуре нашего вуза.
Мы ищем талантливых людей, чтобы подготовить востребованных дипломированных специалистов по анализу данных и машинному обучению, имеющих опыт решения реальных индустриальных задач и готовых к работе на позициях Data Scientist и Machine Learning Engineer в ведущих технологических компаниях России и мира. Специалистов, зарплата которых исчисляется сотнями тысяч рублей (или десятками тысяч долларов, если вы захотите присоединиться к зарубежной команде исследователей в сфере Data Sciense).
Если вы имеете бакалаврский диплом по любой технической специальности или высшее образование в любой другой сфере - предлагаем комфортные условия обучения в онлайн-магистратуре НИТУ МИСиС.
Полное погружение и все возможности очного обучения — в онлайн-формате. Программа спроектирована с учётом требований крупнейших международных IT-компаний:
✔ Преподаватели — специалисты IT из топовых компаний, профессора и исследователи
✔ Портфолио проектов и стажировки во время обучения
✔ Карьерные рекомендации от экспертов
✔ Поддержка на практических занятиях и обратная связь по выполненным работам от экспертов в области data science
✔ Возможность обучаться из любой точки мира в магистратуре МГУ (ведь очная магистратура ничем не отличается от онлайн)
Есть отсрочка от армии. Возможно оформить образовательный кредит.
Онлайн-магистратура - это уникальная возможность получить диплом магистра не выходя из дома! НИТУ МИСиС является одним из наиболее динамично развивающихся научно-образовательных центров страны. Университет занимает ведущие позиции в мировых предметных рейтингах. За два года обучения вы получите навыки важные для работы в лучших IT-компаниях и станете востребованным специалистом. Хотите получить еще больше информации? Переходите по ссылке и увидите всё сами! Начните успешную карьеру в Data Science.
Поговорим о преимуществах обучения и немного о том, что вы получите на выходе.
- Обучение – дистанционное! В связи с внешними факторами и опасениями очного обучения мы делаем формат онлайн - магистратуры от мощного Вуза! Что это значит? Учись и реализуйся из любой точки мира в течение 2-х лет!
- Длительность учебы в магистратуре – 24 месяца.
Что же вы получите в рамках обучения в онлайн-магистратуре?
1 - Сильную программу обучения, построенную на академических принципах образования и глубокие фундаментальные знания
2 - После обучения в онлайн - магистратуре ВУЗа диплом государственного образца НИТУ «МИСиС»
3 - Через 2 года обучения у вас будут навыки, важные для работы в лучших IT-компаниях
4 - Большое комьюнити и крутой нетворкинг
5 - Большое количество контактных занятий (семинаров) и практики в крупных IT компаниях
6 - Продвинутая поддержка студента на основе данных с платформы и Slack
7 - Доступный материал 24/7
А ещё! Чтобы вам было комфортнее мы подготовили бесплатный подготовительный курс к экзаменам для абитуриентов магистратуры! Этот полноценный онлайн-курс, нацелен на отработку тех тем, которые будут проверяться на экзамене.
Остались вопросы или хотите узнать более подробную информацию по поступлению? Переходите на официальный сайт и оставляйте заявку!
Приём документов на поступление можно подать до 14.08.2021! Поэтому не теряйте время и начните уже сейчас пусть успешной карьеры в области Data Science и Machine Learning!