Найти в Дзене
Nikita Trixter

Машинное обучение с точки зрения науки

Машинное обучение очень интенсивно развивается. Однако за известными всем результатами, которые показывают такие гиганты индустрии, как OpenAI или Google, стоит труд множества исследователей из различных уголков нашей планеты. Сегодня я поговорил с Александром Моршининым, PhD в области математики, который в своих исследованиях занимается проблемами искусственного интеллекта. Расскажите про область ваших исследований. В двух словах – кластерный анализ. Конкретно, я занимаюсь исследованием задач кластеризации на графах. Это одна из важнейших задач анализа данных, которая относится к разделу обучения без учителя. В англоязычной литературе она известна под названием Correlation Clustering. Решаю широкий спектр проблем: составление эффективных алгоритмов их решения (точных или приближенных), доказательство гарантированных оценок точности, определение вычислительной сложности, поиск новых подходов к решению задач (целочисленное линейное программирование, комбинаторные алгоритмы, динамическое
Оглавление
                                                           Александр возле своей alma mater
Александр возле своей alma mater

Машинное обучение очень интенсивно развивается. Однако за известными всем результатами, которые показывают такие гиганты индустрии, как OpenAI или Google, стоит труд множества исследователей из различных уголков нашей планеты. Сегодня я поговорил с Александром Моршининым, PhD в области математики, который в своих исследованиях занимается проблемами искусственного интеллекта.

Расскажите про область ваших исследований.

В двух словах – кластерный анализ. Конкретно, я занимаюсь исследованием задач кластеризации на графах. Это одна из важнейших задач анализа данных, которая относится к разделу обучения без учителя. В англоязычной литературе она известна под названием Correlation Clustering. Решаю широкий спектр проблем: составление эффективных алгоритмов их решения (точных или приближенных), доказательство гарантированных оценок точности, определение вычислительной сложности, поиск новых подходов к решению задач (целочисленное линейное программирование, комбинаторные алгоритмы, динамическое программирование).

Хотел бы отдельно остановиться на проблеме поиска новых подходов. Классические задачи обычно имеют известный ограниченный набор методов их решения. Для меня самое интересное – подойти нестандартно к решению задачи. Про задачи кластеризации на графах можно сказать, что они являются частным случаем матроидной аппроксимации. А это дает широкий спектр инструментов для исследования, ведь матроиды связаны с такими понятиями, как линейная алгебра, системы независимости, комбинаторные геометрии, теория моделей. Мне кажется, очень интересно, что классическую задачу машинного обучения можно пытаться решить, например, аппаратом теории моделей. Собственно, в последнее время я занимаюсь поиском таких новых подходов.

Расскажите про важнейшие результаты ваших научных исследований. Какие результаты имеют наибольшее влияние на жизнь и науку?

В целом, задачи имеют большое влияние на жизнь, поскольку занимается группировкой объектов произвольной природы.

Я бы выделил три важнейших результата:

1. Обобщение метода локального поиска, позволяющего строить приближенные алгоритмы с хорошими оценками точности. Он достаточно универсален и применим к широкому классу задач.

2. Исследование подхода с частичным применением учителя для задачи кластеризации на графах. Это позволяет использовать более широкий набор методов, решающих реальные задачи.

3. Характеризация кластерных графов через запрещенные подграфы. Этот результат пока носит теоретический характер, хотя я надеюсь получить из него прикладную пользу.

Как вы считаете, что в ваших исследованиях важно для развития фундаментальной науки, а что для прикладных областей?

Задачи кластеризации пришли из практики. Конечно, задачи, встречающиеся, например, на производстве, имеют более строгие ограничения, что делает их невозможными для теоретического изучения. Поэтому мы часто упрощаем модели в сравнении с реальными ситуациями. Однако, это не делает их простыми в плане теоретического исследования.

Мои исследования начинались как фундаментальные. Однако со временем я много общался с прикладниками, которые находили применение этим исследованиям в реальном мире. Поэтому я много времени посвятил программной реализации, исследовал алгоритмы в экспериментах, применял методы статистики для оценки некоторых параметров полученных алгоритмов.

Вашу научную деятельность как-то поддерживали (например грантами)? В целом, сотрудничаете ли вы с какими-либо крупными компаниями, исследователями?

По большей части поддерживаю свою деятельность сам, работая ведущим разработчиком и аналитиком данных в бизнесе. Сейчас я также являюсь участником группы молодых ученых, получившей грант на исследование задач теории расписаний. Ребята нашли связь кластеризации и теории расписаний, поэтому пригласили меня. Участники коллектива живут в разных странах, поэтому, можно сказать, у нас международная исследовательская группа.

А занимаетесь ли вы преподавательской деятельностью?

Ежегодно читаю лекции по искусственному интеллекту и программированию студентам-стажерам, в этом году читаю лекций для аспирантов Института математики им. С.Л. Соболева. Был опыт работы в Омском государственном университете им. Ф.М. Достоевского, вел семинары по теории графов и комбинаторным алгоритмам. Однако из-за нехватки времени пришлось в итоге отказаться, о чем я немного жалею.

Вы сказали, что помимо научной деятельности занимаетесь так же промышленным анализом данных. Можете рассказать поподробнее? Вносите ли вы какой-то вклад в open source?

В бизнесе, конечно, все намного сложнее, некоторые разработки не разглашаются из-за их уникальности и желания бизнеса заработать на них. Это естественное желание, обсуждать здесь нечего и осуждать кого-либо тоже бессмысленно. Что же касается open source, то здесь мой вклад присутствует. Все свои наработки (алгоритмы, модели) я выкладываю в свой GitHub. Различные обучающие проекты по машинному обучению стараюсь выкладывать на тот же GitHub по мере возможности, чтобы другим людям было проще освоиться в сложных для них темах: CV, NLP и т.д.

Можете дать какие-то советы начинающим исследователям?

Отвечу кратко – если это ваше, то вперед! Задач огромное множество, на наш век точно хватит.

Автор: Горбунов Никита Викторович, Главный архитектор ИТ-систем. Практика архитектуры бизнес-решений, ООО "Газпромнефть-ЦР".

05.11.23