Автор Хесус Родригес
Многие известные статистические парадоксы вездесущи в рабочих процессах машинного обучения.
Парадоксы - одно из чудес человеческого познания, которое трудно поддается математике и статистике. Концептуально парадокс - это утверждение, которое приводит к очевидному противоречивому выводу, основанному на исходных предпосылках проблемы. Даже самые известные и хорошо задокументированные парадоксы регулярно вводят в заблуждение экспертов в предметной области, поскольку они в корне противоречат здравому смыслу. Поскольку искусственный интеллект (ИИ) стремится воссоздать человеческое познание, очень часто модели машинного обучения обнаруживают парадоксальные закономерности в обучающих данных и приходят к выводам, которые на первый взгляд кажутся противоречивыми. Здесь рассмотрены некоторые известные парадоксы, которые обычно встречаются в моделях машинного обучения.
Парадоксы обычно формулируются на стыке математики и философии. Пресловутый философский парадокс, известный как Корабль Тесея, задается вопросом, остается ли объект, в котором были заменены все его компоненты, в основном тем же самым объектом. Во-первых, предположим, что знаменитый корабль, на котором герой Тесей плыл в великой битве, хранится в гавани как музейный экспонат. С годами некоторые деревянные детали начинают гнить и заменяются новыми. Примерно через столетие все детали были заменены. "Восстановленный" корабль остается тем же объектом, что и оригинал? В качестве альтернативы предположим, что каждая из удаленных частей хранилась на складе, и спустя столетие развиваются технологии, чтобы устранить их гниение и позволить их собрать вместе, чтобы создать корабль. Это «реконструированный» корабль - оригинальный корабль? И если да, то восстановленный корабль в гавани тоже остается оригинальным?
Область математики и статистики полна известных парадоксов. Используя пару известных примеров, легендарный математик и философ Бертран Рассел сформулировал парадокс, который высветил противоречие в некоторых из самых сильных идей теории множеств, сформулированных одним из величайших математиков всех времен: Грегом Кантором. По сути, парадокс Рассела ставит вопрос о том, будет ли «список всех списков, которые не содержат самих себя», включать сам себя. Парадокс возникает в рамках теории естественных множеств при рассмотрении множества всех множеств, которые не являются членами самих себя. Такой набор кажется членом самого себя тогда и только тогда, когда он не является членом самого себя. Отсюда парадокс. Некоторые наборы, такие как набор всех чайных чашек, не являются членами самих себя. Другие наборы, такие как набор всех не чайных чашек, являются членами самих себя. Назовите набор всех наборов, которые не являются членами самих себя «R.» Если R является членом самого себя, то по определению он не должен быть членом самого себя. Точно так же, если R не является членом самого себя, то по определению он должен быть членом самого себя. Что????
Знаменитые парадоксы в моделях машинного обучения
Как и любая форма создания знаний на основе данных, модели машинного обучения не лишены когнитивных парадоксов. Напротив, когда машинное обучение пытается вывести закономерности, скрытые в наборах обучающих данных, и подтвердить свои знания в конкретной среде, они постоянно подвержены парадоксальным выводам. Вот несколько самых громких парадоксов, которые возникают в решениях для машинного обучения.
Парадокс Симпсона
Названный в честь британского математика Эдварда Симпсона, парадокс Симпсона описывает феномен, при котором тренд, наблюдаемый в нескольких группах данных, рассеивается при объединении данных. Реальный случай парадокса произошел в 1973 году. Уровень приема исследовался в аспирантуре Университета Беркли. Женщины подали в суд на университет из-за гендерного разрыва при поступлении. Результаты исследования были следующими: когда каждая школа рассматривалась отдельно (право, медицина, инженерия и т. д.), женщин принимали чаще, чем мужчин! Однако среднее значение предполагает, что мужчин принимали гораздо чаще, чем женщин. Как такое возможно?
Объяснение предыдущего варианта использования состоит в том, что простое среднее значение не учитывает релевантность конкретной группы в общем наборе данных. В этом конкретном примере женщины подавали заявления в школы с низким уровнем поступления: например, в юридические и медицинские. Эти школы принимали менее 10 процентов учеников. Поэтому процент принятых женщин был очень низким. С другой стороны, мужчины чаще подавали заявления в школы с высокими показателями приема: например, в инженерные, где процент приема составляет около 50%. Поэтому процент принятых мужчин был очень высоким.
В контексте машинного обучения многие алгоритмы неконтролируемого обучения выводят шаблоны из разных наборов обучающих данных, что приводит к противоречиям при объединении по всем направлениям.
Парадокс Браеса
Этот парадокс был предложен в 1968 году немецким математиком Дитрихом Браесом. На примере перегруженных транспортных сетей Браес объяснил, что, как это ни парадоксально, добавление дороги к дорожной сети могло бы затруднить ее движение (например, время в пути каждого водителя); Аналогичным образом, закрытие дорог может сократить время в пути. Рассуждения Браеса основаны на том факте, что в равновесной игре по Нэшу у водителей нет стимула менять свои маршруты. С точки зрения теории игр, индивидуум ничего не выиграет от применения новых стратегий, если другие будут придерживаться тех же стратегий. В случае с водителями стратегия - это выбранный маршрут. В случае парадокса Браеса водители будут продолжать переключаться до тех пор, пока не достигнут равновесия по Нэшу, несмотря на снижение общей производительности. Таким образом, как это ни парадоксально, закрытие дорог может облегчить заторы.
Парадокс Браеса очень уместен в автономных многоагентных сценариях обучения с подкреплением, в которых модели должны вознаграждать агентов на основе конкретных решений в неизвестной среде.
Парадокс Моравека
Ханса Моравека можно считать одним из величайших мыслителей искусственного интеллекта последних нескольких десятилетий. В 1980-х Моравек сформулировал противоречащее интуиции предположение о том, как модели ИИ приобретают знания. Парадокс Моравека утверждает, что, вопреки распространенному мнению, рассуждение высокого уровня требует меньше вычислений, чем бессознательное познание низкого уровня. Это эмпирическое наблюдение, которое противоречит представлению о том, что большие вычислительные возможности приводят к более интеллектуальным системам.
Более простой способ сформулировать парадокс Моравека состоит в том, что модели искусственного интеллекта могут выполнять невероятно сложные статистические задачи и задачи вывода данных, которые невозможны для человека. Однако многие задачи, которые становятся тривиальными для человека, такие как захват объекта, потребуют дорогих моделей ИИ. Как пишет Моравец, «сравнительно легко заставить компьютеры показывать результаты на уровне взрослых в тестах интеллекта или игре в шашки, и трудно или невозможно дать им навыки годовалого ребенка, когда дело касается восприятия и мобильности».
С точки зрения машинного обучения парадокс Моравека очень применим в аспекте трансферного обучения, которое направлено на обобщение знаний по различным моделям машинного обучения. Вдобавок парадокс Моравека учит нас, что некоторые из лучших приложений машинного интеллекта будут сочетаться с людьми и алгоритмами.
Парадокс достоверности (accuracy)
Парадокс достоверности, непосредственно связанный с машинным обучением, утверждает, что, как ни парадоксально, достоверность не всегда является хорошим показателем для классификации результативности прогнозных моделей. Как это относится к противоречивым заявлениям? Парадокс достоверности коренится в несбалансированных наборах данных для обучения. Например, в наборе данных, в котором частота случаев категории A является доминирующей, которая обнаруживается в 99% случаев, тогда прогнозирование того, что каждый случай относится к категории A, будет иметь достоверность 99%, полностью вводит в заблуждение.
Более простой способ понять Парадокс Достоверности - найти баланс между точностью и полнотой (чувствительностью) в моделях машинного обучения. В алгоритмах машинного обучения точность часто определяется как измерение того, какая часть ваших прогнозов для положительного класса верна. Она формулируется как (истинные положительные / истинные положительные + ложные положительные результаты). Кроме того, показатель полноты измеряет, как часто ваши прогнозы действительно соответствуют положительному классу. Он сформулирован как (Истинно-положительные / Истинно-положительные + Ложно-отрицательные).
Во многих моделях машинного обучения баланс между точностью и полнотой является лучшим показателем достоверности. Например, в случае алгоритма обнаружения мошенничества полнота является более важным показателем. Очевидно, что важно выявить все возможные случаи мошенничества, даже если это означает, что властям может потребоваться пройти несколько ложных срабатываний. С другой стороны, если алгоритм создан для анализа настроений и все, что вам нужно, - это высокоуровневое представление об эмоциях, указанных в твитах, тогда стремление к точности - это тот путь, который можно использовать.
Обучаемость - Парадокс Гёделя
Если оставить напоследок самые спорные моменты, это совсем недавний парадокс, который был опубликован в исследовательской работе ранее в 2019 году. Парадокс связывает способность модели машинного обучения к обучению с одной из самых спорных теорий математики: теоремой Гёделя о неполноте.
Курт Гёдель - один из самых ярких математиков всех времен, который, как и некоторые из его предшественников, раздвинул границы философии, физики и математики. В 1931 году Гёдель опубликовал две теоремы о неполноте, в которых по сути говорится, что некоторые утверждения нельзя доказать как истинные, или ложные с помощью стандартного математического языка. Другими словами, математика - недостаточный язык для понимания некоторых аспектов Вселенной. Эти теоремы стали известны как гипотеза континуума Гёделя.
В недавней работе исследователи искусственного интеллекта из Израильского технологического института связали гипотезу континуума Гёделя с обучаемостью модели машинного обучения. В парадоксальном заявлении, бросающем вызов всем общепринятым представлениям, исследователи определяют понятие неопределенности в обучаемости. По сути, исследователи продолжают доказывать, что если Континуум-гипотеза верна, небольшой выборки достаточно для экстраполяции. Но если это неверно, никакой конечной выборки никогда не будет достаточно. Таким образом они показывают, что проблема обучаемости эквивалентна Континуум-гипотезе (первой проблеме Гильберта). Следовательно, проблема обучаемости также находится в состоянии неопределенности, которое может быть решена только путем выбора аксиоматического универсума.
Проще говоря, математические доказательства в исследовании показывают, что проблемы ИИ подчиняются континуум-гипотезе Гёделя, что означает, что многие проблемы могут быть фактически неразрешимыми с помощью ИИ. Хотя сегодня этот парадокс очень мало применим к реальным проблемам искусственного интеллекта, он будет иметь первостепенное значение для развития этой области в ближайшем будущем.
Парадоксы вездесущи в задачах машинного обучения в реальном мире. Вы можете утверждать, что, поскольку алгоритмы не имеют понятия здравого смысла, они могут быть неуязвимы для статистических парадоксов. Однако, учитывая, что большинство проблем машинного обучения требуют человеческого анализа и вмешательства и основаны на наборах данных, созданных людьми, мы еще довольно долго будем жить во вселенной парадоксов.