Алгоритмы машинного обучения (ML) используются для создания прогнозов во всех сферах нашей жизни, связанной с принятием решений. Методы варьируются от «простых» алгоритмов, таких как деревья, леса, наивный байесовский алгоритм, модели линейной и логистической регрессии и методы ближайшего соседа, работающих за счет улучшений, таких как ускорение, сборка, регуляризация и ансамбль, до ресурсоемких алгоритмов глубокого обучения . Новая мода «применять глубокое обучение ко всему» привела как к прорывам, так и к тревожным бедствиям. Это связано с нестабильностью алгоритмов глубокого обучения? Я утверждаю, что это происходит из-за растущего разрыва между разработчиками алгоритмов прогнозирования, их контекстом развертывания и действиями их конечных пользователей. Машинное обучение основано на корреляциях, а не на причинной связи. В этом сила ML, а также его слабость. Это означает, что мы можем получить хорошие результаты, если обучим и оценим решение машинного обучения в правильном контексте его развертывания. Но если мы отклонимся от контекста - разные данные по обучению / развертыванию, непонимание действий конечного пользователя, грамотность, мотивация и доверие машинного обучения и т. Д. - нас ждут сюрпризы. Как и в стихотворении Гете «Ученик чародея» (показанном в мультфильме «Фантазия» Диснея), ученик фокусника учится только имитировать действия фокусника, но не понимает их, что приводит к катастрофе.
При разработке решения машинного обучения мы должны задать вопрос: «Каким образом это решение будет использоваться для решения поставленной задачи?» - это требует понимания того, как конечный пользователь будет использовать систему, и прогнозируемых значений / оценок.
Например
- будут ли они применять решение к новому типу данных?
- поймут ли они полученный результат и / или поверит ему?
- могут ли они перевести заявленный уровень производительности алгоритма в практическое применение?(например, затраты на завышение или занижение прогноза)
- как пользователь переведет прогнозируемую оценку в действие?
Чтобы ответить на эти важные вопросы, требуется диалог между разработчиком алгоритма (специалистом по данным) и конечным пользователем, а часто и сборщиком данных. Это сложный диалог, где разные стороны говорят на разных языках, и может быть много недопониманий. Это означает, что специалисты по обработке данных должны погрузиться в контекст развертывания не только с точки зрения данных, но также с точки зрения людей и лиц, принимающих решения.
В недавней статье https://arxiv.org/pdf/2011.03395.pdf большой группы исследователей Google (+ два профессора EE / CS и аспирант) под названием «Underspecification Presents Challenges for Credibility in Modern Machine Learning », то есть алгоритмы, которые кажутся одинаково хорошими во время разработки (они дают схожее« решение »и, следовательно) во время развертывания работают совершенно по-разному с точки зрения производительности в подгруппах.
Является ли открытие, сделанное в указанной выше статье, новым открытием? Сюрпризы развертывания моделей - это особенность глубокого обучения? «плохая спецификации» - это проблема глубокого обучения? Действительно ли неполная спецификация является проблемой для прогнозирования?
Хорошо известно, что алгоритмы прогнозирования могут кардинально отличаться от работы с подгруппами данных. Парадокс Симпсона - этому пример, когда корреляция между вводом и выводом меняет направление при изучении подгрупп данных. Чем больше число предикторов, тем больше вероятность парадокса Симпсона. Прогностические модели также легко «обмануть», когда набор обучающих данных включает маленьуку/ группу, у которой отношения ввода-вывода отличаются от остальных обучающих данных. Модели вводят в заблуждение, потому что показатели, используемые для обучения и оценки алгоритмов, дают равный вес каждому наблюдению (например, метод наименьших квадратов или максимальная вероятность для обучения; RMSE и метрики точности для оценки).
Хотя материал статьи исследователей Google заканчивается расплывчатым предложением, которое может ввести читателей в заблуждение, заставив думать, что существует технологическое решение («Наши результаты показывают необходимость явного учета недостаточной описательной возможности при прогнозировании данных, которые предназначены для реального прогнозирования в любой области»), в нескольких местах 59-страничной статьи авторы делают вывод:
«Это подтверждает необходимость адаптации и тестирования моделей для клинических условий и населения, в которых они будут применяться».
Статья завершается предложением обойти необходимость контекста, между специалистом по обработке данных и конечным пользователем путем построения моделей, которые отдают предпочтение «предикторам, которые приблизительно учитывают причинную структуру». Хотя использование причинно-следственной структуры возможно и полезно в некоторых областях, особенно в задачах с низкой размерностью, области, в которых проявляется ML, - это именно те области, в которых причинно-следственные связи трудно определить. Объяснение и прогнозирование имеют свои достоинства, и решения для прогнозирования могут быть надежными и полезными даже без лежащего в основе причинно-следственного моделирования, если разработчики и пользователи взаимодействуют и общаются на протяжении всего цикла проектирования, тестирования, развертывания и обратной связи после развертывания.
По своей сути сюрпризы развертывания - это непонимание ограничений машинного обучения или даже статистических моделей. Все они зависят от множества человеческих предпочтений - от специалистов по данным, сборщиков данных, инженеров по обработке данных, людей, от которых собираются данные, конечных пользователей (например, лиц, принимающих решения) и т. д.
В сфере принятия судебных решений растет число исследований, выявляющих проблемы, связанные с катастрофами при развертывании, которые были вызваны отчетом ProPublica за 2016 год о вопиющих ошибках системы COMPAS, используемой в нескольких контекстах принятия судебных решений. Многие проблемы связаны с расхождениями между данными, используемыми для обучения алгоритма, и данными во время развертывания, но есть много других проблем, связанных с контекстом, которые всплывают, когда мы спрашиваем: «Как будет использоваться решение машинного обучения для генерации действия?» Затем мы можем спросить, какие данные лицо, принимающее судебное решение, будет использовать в качестве входных данных для системы, и сравнить их с входными данными, используемыми для обучения данных (разные группы населения, разные определения «рецидивизма» и т. Д.). Мы можем сравнить действие, которое будет инициировано (например, решение об условно-досрочном освобождении), с действием, используемым для определения выходных данных в обучающих данных. Это примеры критического знания, которое может раскрыть диалог.
В нашей недавней статье «Скрытые несоответствия, вносимые алгоритмами прогнозирования при принятии судебных решений» мы раскрываем четыре несоответствия, которые могут быть скрыты от их конечных пользователей: судей, сотрудников по условно-досрочному освобождению, юристов и других лиц, принимающих решения. Эти несоответствия затрагивают различные человеческие элементы (специалисты по обработке данных, инженеры по обработке данных, субъекты данных, сборщики данных, лица, принимающие судебные решения).Несоответствия включают выбор измеряемого результата и предикторов, выбор и качество обучающих данных, точность прогнозов подгрупп (и проблему эталонного класса) и сообщаемые оценки риска. Ни одна из этих проблем не может быть решена путем удаления человека из цикла; Невозможно определить причинную структуру, лежащую в основе сложного и динамичного процесса; Помимо причинной структуры, существуют серьезные проблемы измерения.
Итог:
внедрение алгоритмических решений прогнозирующего машинного обучения в приложения для принятия решений человеком может быть полезным и стабильным, но это требует тесного и постоянного диалога, сотрудничества и понимания между специалистами по данным, конечными пользователями и другими вовлеченными людьми.
Примечание. В этой статье не рассматривается этический вопрос о том, следует ли использовать алгоритмы машинного обучения при принятии решений. Скорее он фокусируется на «сюрпризах», которые могут возникнуть при развертывании.