Найти тему
Катехон

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ НЕ ВОСПРИНИМАЕТ ЧЕЛОВЕЧЕСКИХ ЭМОЦИЙ

США

Кейт Кроуфорд

Не существует убедительных доказательств того, что чувства человека можно определить по выражению его лица. Но крупные технологические компании хотят, чтобы мы верили в обратное.

Молодой американский психолог по имени Пол Экман прибыл на дальнюю заставу в горном нагорье Папуа-Новой Гвинеи с коллекцией карточек и новой теорией. Это случилось в 1967 году, Экман услышал о изолировании народа Форе из Окапы от остального мира до такой степени, что они стали его идеальными подопытными.

Как и предшествующие его западные исследователи, Экман приехал в Папуа - Новую Гвинею, чтобы получить данные о коренном населении. Он собирал доказательства в поддержку спорной гипотезы: о том, что все люди проявляют небольшое количество универсальных эмоций, которые врожденные и одинаковые для всех во всем мире. Подобное суждение в течении более чем половины века по-прежнему остается спорным, обсуждаемым среди психологов, антропологов и технологов. Тем не менее, он положил начало росту рынка, который к 2024 году будет стоить около 56 миллиардов долларов сша. Это история о том, как распознавание стало частью индустрии искусственного интеллекта и возникающих впоследствии проблем.

Когда Экман прибыл в тропики Окапы, он начал проводить эксперименты с целью оценки того, как народ Форе распознает эмоции. Поскольку контакт Форе с европейцами и СМИ был сведен к минимуму, Экман выдвинул предположение, если этот народ сможет распознать и отобразить основные эмоции, то это станет доказательством того, что все выражения универсальны. Его метод был простым. Он показывал им карточки с выражением лица, а затем наблюдал, описывают ли они эмоции так же, как это делает он. «Я всего лишь показывал смешные картинки», - говорил Экман. Однако Экман не был подготовлен, он не знал истории народа Форе, их языка, культуры или даже политических убеждений. Его попытки провести эксперименты с карточками, прибегая к помощи переводчиков не увенчались успехом; он и его субъекты слишком уставали от процесса, который он сравнил с вырыванием зубов. Экман покинул Папуа-Новую Гвинею, разочарованный своей первой попыткой межкультурного исследования эмоциональной экспрессии. Однако это было бы только начало.

Сегодня механизм распознавания лиц можно найти в системах национальной безопасности и аэропортах, в образовательной сфере и при приеме на новую работу, в программном обеспечении, которое предназначено для выявления психиатрических заболеваний, также в полицейских программах, которые по утверждениям могу прогнозировать жестокость. Утверждение о том, что внутреннее состояние человека может быть точно оценено путем анализа его лица, основывается на ненадежных доказательствах. В систематическом обзоре научной литературы 2019 года об определении эмоций через мимику лица, который возглавлялся психологом и нейробиологом Лизой Фельдман Барретт, было выявлено, что не существует надежных доказательств того, что таким образом можно точно спрогнозировать эмоциональное состояние человека. «Невозможно с полной уверенностью сделать говорить о счастье опираясь на улыбку, о гневе или печали только из-за хмурого взгляда, что пытаются сделать большинство современных технологий, посредством ошибочно поставленных научных фактов», - заключает исследование. Так почему же идея того, что существует некий набор универсальных эмоций, легко интерпретируемых с мимики человека, стала приниматься в области ИИ (искусственного интеллекта)?

Чтобы это понять, необходимо отследить за сложной историей и стимулами, лежащими в основе этих идей, задолго до того, как инструменты ИИ выявления эмоций были встроены в инфраструктуру повседневной жизни.

Идея автоматического распознавания столь же насущна, сколько и прибыльна. Технологические компании накопили огромное количество изображений поверхностных человеческих выражений лиц, включая миллиарды селфи из Instagram, портреты из Pinterest, видео из TikTok и фотографии из Flickr. Подобно распознаванию лиц, такое распознавание стало частью основной инфраструктуры многих платформ, от крупнейших технологических компаний до небольших стартапов.

Поскольку программа распознавания лиц идентифицирует конкретную личность, распознавания эмоций направлено на их обнаружение и классификацию путем анализа любого типа лица. Эти системы уже влияют на поведение людей и функционирование социальных институтов, несмотря на отсутствие существенных научных доказательств их работы. В настоящее время широко используются системы автоматического масштабного распознавания, особенно при найме персонала. Компания HireVue, использующая ИИ и может перечислить Goldman Sachs, Intel и Unilever среди своих клиентов, использует машинное обучение, чтобы определить профпригодность людей. В 2014 году компания запустила свою систему ИИ для выявления микровыражений, тона голоса и других переменных из видеоинтервью о работе, которые она использовала для сравнения соискателей с лучшими рапотниками компании. В 2021 году после серьезной критики со стороны учёных и групп по защите гражданских прав, компания отказалась от анализа лиц, но в качестве критерия оценивания оставила анализ голосового тона. В январе 2016 года Apple приобрела стартап Emotient, который по утверждениям создал программное обеспечение, способное выявить эмоции на изображениях с лицами. Возможно, крупнейшим из таких стартапов является компания Affectiva, базирующаяся в Бостоне, которая возникла благодаря академической работе, проделанной в МТИ.

Affectiva закодировала различные приложения, связанные с эмоциями, в первую очередь с использованием методов глубокого обучения. Данные подходы включают в себя распознавание на дорогах водителей, которые отвлекаются и «рискуют», оценку эмоциональной реакции потребителей на рекламу. Компания создала крупнейшую в мире базу данных эмоций, состоящую из более чем 10 миллионов выражений людей из 87 стран. Его монументальная видео-коллекция была вручную смонтирована сотрудниками компании, которые в основном находятся в Каире.

Гиганты ИИ, вне первоначальной системы, такие как Amazon, Microsoft и IBM, разработали системы для выявления эмоций. Microsoft предлагает распознавать эмоции в Face API, определяя «гнев, презрение, отвращение, страх, счастье, нейтральность, грусть и неожиданность», в то время как система Rekognition от Amazon также претендует на возможность идентифицировать то, что он определяет как «все семь эмоций», и «оценивать, как вещи, такие как построение временной линии эмоций актера, меняются с течением времени.»

Система распознавания эмоций обладает похожим набором планов и исходных схем: существует небольшое количество разнообразных и универсальных эмоциональных категорий, которые мы невольно выражаем на наших лицах, которые смогут быть обнаружены машинами. Данные статьи, базирующиеся на вере настолько признаны в некоторых областях, что может показаться странным даже заметить их, не говоря уже о том, чтобы подвергать их сомнению. Но если мы понаблюдаем за тем, как эмоции стали таксономизироваться, аккуратно упорядочены и помечены, мы увидим, что сомнения поджидают нас на каждом углу.

Исследования Экмана начались с его удачной встречи с Сильваном Томкинсом, тогда уже известным психологом из Принстона, который, в 1962 году опубликовал первый том Magnum opus, эмоциональный образ сознания (Affect Imagery Consciousness). Работа Томкинса над эмоциями оказала огромное влияние на Экмана, который посвятил большую часть своей карьеры изучению их влияния. В частности, один аспект сыграл неоценимую роль: идея о том, что если выражение лиц является врожденным набором эволюционных реакций, то оно будет универсальным, таким образом, распознаваемым во всех культурах. Это стремление к универсальности объясняет важность того, почему данная теория широко применяется в современных системах распознавания эмоций ИИ. Теория может быть применена где-угодно, упрощение сложности легко применялось в крупных масштабах.

В введении к эмоциональному образу самосознания (Affect Imagery Consciousness) Томкинс сформулировал свою теорию о биологически обоснованных универсальных влияниях в качестве одного из подходов к острому кризису человеческой самопринадлежности. Он бросал вызов развитию бихевиоризма и психоанализа, двух школ мысли, по его мнению, которые рассматривали сознание сугубо как вторичный результат, который эксплуатировался другими силами. Он отметил, что человеческому сознанию «вновь и вновь бросали вызов, сначала это был Коперник», который вытеснил человека из центра вселенной – «затем Дарвин», чья теория эволюции разрушила идею о том, что люди были созданы по образу и подобию христианского Бога, и « прежде всего Фрейдом», который ввел в поставил под сомнение человеческое сознание и разум как движущую силу наших мотивов. Томкинс продолжил: «Парадокс максимального контроля над природой и минимального контроля над человеческой природой отчасти является производной пренебрежения роли сознания как механизма контроля.» Другими словами, сознание не дает полное объяснение тому, почему делаем или чувствуем те или иные вещи. Данное утверждение является решающим для всех более поздних типов применений теории эмоций, которая подчеркивает неспособность человека распознавать чувства и эмоциональные выражения. Если мы, люди, неспособны по-настоящему осознать, что мы чувствуем, возможно тогда системы ИИ смогут понять это за нас?

Теория Томкинса касательно эмоций стала его собственным способом решения проблемы мотивации человека. Он утверждал, что мотивация регулируется двумя системами: воздействующими и приводными.

Томкинс предположил, что движущие силы, как правило, тесно связаны с непосредственными биологическими потребностями, такими как голод и жажда. Они играют важную роль; боль от голода можно устранить с помощью продовольствия. Но первичная система, регулирующая мотивацию и поведение человека, — это система воздействий, включающая в себя позитивные и негативные чувства. Воздействия, которые играют наиболее важную роль в мотивации человека, усиливают сигнальные двигатели, но которые гораздо сложнее. Например, трудно точно определить причины, заставляющие плакать ребенка, которые выражают страдания и мучения.

Как мы можем что-либо знать о системе, в которой связь между причиной и следствием, стимулом и реакцией настолько слаба и неопределенна? Томкинс предложил следующий ответ: «Первичное воздействие…кажется, что они врожденно связаны с системой органов, которая заметна», а именно с лицом. Он нашёл прецеденты такого внимания на выражение лиц в двух работах, опубликованных в XIX веке: Чарльз Дарвин «Выражение эмоций в человеке и животных» 1872 года, и непонятный том французского невролога Гийома Бенджамин-Аманд Дюшен де Булон 1862 года.

Томкинс предположил, что проявление эмоция путем выражений на лице стало универсальной человеческой чертой. Томкинс считает, что «Эмоции — это наборы мышечных, сосудистых и железистых реакций, расположенных на лице, а также широко проходящих через тело, которые генерируют сенсорную обратную связь. Эти организованные наборы реакций срабатывают в подкорковых центрах, где хранятся специфические программы для каждой конкретной эмоции» - раннее использование вычислительной аналогии для системы человека. Однако Томкинс признал, что интерпретация эмоциональных проявлений зависит от индивидуальных, социальных и культурных факторов. Он утверждает, что в разных обществах существуют весьма различные «диалекты» языка лиц. Даже праотец эмоциональных исследований поднял вопрос возможности того, что интерпретация изображения лица зависит от социального и культурного контекста.

Учитывая, что выражения лица разнообразны с точки зрения культуры, использование их для изучения систем машинного обучения сочетает все виды различного контекста, сигналов и ожиданий. Проблема для Экмана, а позже и для поля компьютерного зрения, заключалась в том, как применить эти противоречия.

Продолжение следует