Найти тему
Катехон

ИИ НЕ ВОСПРИНИМАЕТ ЧЕЛОВЕЧЕСКИХ ЭМОЦИЙ. Ч. 2.

США

Кейт Кроуфорд

Продолжение публикации

В середине 1960-х годов Экман получил возможность в виде большого гранта от DARPA, исследовательского подразделения Министерства обороны. Крупная финансовая поддержка от DARPA позволила Экману начать свои первые исследования, чтобы доказать универсальность мимики. Как правило, эти исследования проводились по схемам, которые были взяты из ранних лабораторий искусственного интеллекта. Он в значительной степени скопировал методы Томкинса, даже использовал его фотографии, чтобы проверить подопытных из Чили, Аргентины, Бразилии, США и Японии. Испытуемым были представлены фотографии искусственных эмоций, выбранных дизайнерами, которые выражали особенно «чистые» эмоции, такие как страх, удивление, гнев, счастье, грусть и отвращение. Затем испытуемым было предложено поделить их на категории и пометить их. В ходе анализа оценивалась степень корреляции между эмоциями выбранными субъектами и разработчиками.

С самого начала данная методология обладала множеством проблем. Вынужденный формат ответа Экмана позже был подвергнут критике за то, что он обратил внимание людей на связи, которые дизайнеры уже установили между выражением лиц и эмоциями. Кроме того, тот факт, что эти эмоции были сфальсифицированными, ставит под сомнение достоверность результатов.

Идея того, что внутренние состояние может быть верно определено по внешним признакам, обладает длинной историей. Она частично начинается с истории о физиогномики, которая была основана на изучении особенностей лица человека с целью определения его характера. Аристотель считал, что «о характере человека можно судить по его внешнему виду…потому что считается, что душа и тело едины.» Греки тоже использовали физиогномию как раннюю форму расовой классификации, применимую к «роду самого человека, деля его на расы, опираясь на отличия во внешнем виде и характере (например, египтяне, фракийцы и скифы).»

В западной культуре физиогномия достигла пика в XVIII и XIX веках, когда её рассматривали как часть анатомических наук. Ключевой фигурой этой традиции был швейцарский пастор Иоганн Каспар Лаватер, который написал эссе о физиогномим: «За развитие знаний и любви к человечеству», первоначально опубликованное на немецком языке в 1789 году. Лаватер смешал подходы физиогномики с последними научными знаниями. Он считал, что телосложение — это основа взаимосвязи между внешним видом и типом характера. Если выражение лица было неуловимым, то черепа казался более прочным материалом для физиогномических выводов. Измерение черепа было популярной методикой в расовых науках и использовалось для поддержки национализма, превосходства белых и ксенофобии. Эта работа была печально известна фраенологами на протяжении всего XIX века, такими как Франц Джозеф Галл и Иоганн Гаспар Спурцхайм, а также в научной криминологии через работу Чезаре Ломбросо.

Но именно французский невролог Дюшен, охарактеризованный Экманом как «удивительно одаренный наблюдатель», кодифицировал использование фотографии и других технических средств при изучении человеческих лиц. В Mécanisme de la physionomie humaine Дюшен заложил важные основы Дарвина и Экмана, соединив старые идеи физиогномии и френологии с более современными исследованиями физиологии и психологии. Он заменил расплывчатые утверждения о характере более ограниченным исследованием экспрессии и внутреннего психического и эмоционального состояния.

Дюшен работал в Сальпетриерском приюте Парижа, где находилось до 5000 человек с различными психическими заболеваниями и неврологическими расстройствами. Некоторые могли стали его объектами для мучительных экспериментов, и частью давней традиции медицинских и технологических экспериментов над наиболее уязвимыми, неспособными отказаться. Дюшен, который был мало известен в научном сообществе, решил разработать метод с использованием электрошока, чтобы простимулировать незаметные движения мышц на лицах людей. Его целью стало создание более полного анатомического и физиологического понимания лица. Дюшен использовал данные методы, чтобы объединить новую психологическую науку и гораздо более старое исследование о физиогномических признаках или интересах. Он полагался на последние достижения в области фотографии, такие как коллодионная обработка, которая позволяла значительно сократить время экспозиции, позволяя Дюшену запечатлеть мимолётные мышечные движения и выражения лица на изображении.

Даже на ранних стадиях лица никогда не были естественными или социально проявляющимися человеческими эмоциями, а симуляцией при грубых применениях электрического тока по отношению к мышцам. Тем не менее, Дюшен считал, что использование фотографии и других технических систем превратит создаст объективное и доказательное представление, более подходящее для научных исследований. Дарвин похвалил «прекрасные фотографии» Дюшена и включил репродукции в свои собственные работы.

Экман последовал примеру Дюшена, сделав фотографию центром своей экспериментальной практики. Он считал, что замедленная фотосъемка съёмка была необходима его подходу, потому что многие эмоции работают на пределе человеческого восприятия. Целью исследования было найти так называемые микровыражения, т.е. крошечные мышечные движения на лице.

Одним из амбициозных планов Экмана в его ранних исследованиях было кодифицировать систему обнаружения и анализа эмоций на лице. В 1971 году он опубликовал формулировку того, что он назвал техникой подсчета очков по эмоциям на лице (FAST).

Основываясь на фотографиях с позированием, подход обладал шестью основными эмоциональными типами, по большей степени основанными на интуиции Экмана. Но вскоре FAST стал проблемой того, как другие ученые столкнулись с выражением лица, не включенным в его типологию. Поэтому Экман решил использовать другой подход для исследования мимики, возвращаясь к оригинальным электрошоковым исследованиям Дюшена. Экман идентифицировал около 40 различных мышечных сокращений на лице и назвал основные компоненты каждого выражения лица «операцией.» После некоторых испытаний и проверок Экман и Уоллес Фризен в 1978 году опубликовали систему кодирования лицевых действий (FACS); новые издания все еще широко востребованы.

Несмотря на финансовый успех, FACS была весьма трудозатратной в использовании. Экман писал, что требовалось 75-100 часов, чтобы обучить пользователей методике FACS, и час для того, чтобы запечатлеть мгновение снимка лица. Эта задача представляла собой как раз таки ту возможность, которую хотела использовать формирующаяся область компьютерного зрения.

В связи с началом использования компьютера с целью распознавания эмоций исследователи признали, что в экспериментах необходимо использовать стандартные изображения. В докладе национального научного фонда 1992 года, который написанн в соавторстве с Экманом, было рекомендовано следующее «легкодоступность мультимедийной базы данных, совместно используемая различным кругом лиц исследователей, станет важным ресурсом для решения и расширения вопросов, касающихся понимания мимики.» В течение года министерство обороны начало финансирование программы по сбору изображений лиц. К концу десятилетия исследователи машинного обучения начали собирать, выделять и публиковать набор данных, которые лежат в основе большинства современных исследований машинного обучения. Академические лаборатории и компании начинали работу над параллельными проектами, создавая множество баз по фотоданным. Например, исследователи из швейцарский лаборатории создали Karolinska Directed Emotional Faces. Данная база данных включает изображения людей, их позы, эмоциональные выражения, которые соответствую категориям Экмана. Они меняли эмоции на своем лице в соответствии с шестью основными эмоциональными состояниями: радость, гнев, отвращение, грусть, неожиданность и страх. Посмотрев на этот процесс, тяжело остаться без сильного чувства того, что это пантомимы: Невероятное удивление! Избыточная радость! Парализующий страх! Субъекты буквально создают эмоции, которые машина сможет прочитать.

По мере роста масштаба и сложности процесса, росло и количество типов фотографий, используемых для распознавания. Исследователи начали использовать систему FACS для маркировки данных, полученных не в результате искусственное проявленных эмоций, а в результате их спонтанного проявления, иногда запечатленных вне лабораторных условий. Работа Экмана обрела глубокое и массовое воздействие. The New York Times описали его как «самого известного во всем мире читателя лиц», Time назвали его одним из ста самых влиятельных людей в мире. В итоге он начал консультироваться с не имеющими ничего общего друг с другом клиентами, как Далай-лама, ФБР, ЦРУ, Секретная Служба и анимационная студия Pixar, которая хотела создать больше жизненных анимационных лиц. Его идея стала частью поп-культуры, включённой в бестселлеры, такие как Малкольм Гладуэлл Блинк и телевизионная драма «Lie to Me», на которой Экман стал консультантом для главного персонажа, очевидно, в какой-то степени основанной на нём.

Его бизнес начал процветать: Экман продавал методы по обнаружению лжи таким агентствам, как управление транспортной безопасности, которое использовало их для разработки программы проверки пассажиров с помощью SPOT. SPOT используется для мониторинга выражений лиц путешественников с 11 сентября, чтобы «автоматически» обнаружить террористов. В системе используется набор из 4 критериев, все из которых предположительно являются признаками стресса, страха или обмана. Но подобный способ решения вопроса может поставить в неблагоприятную ситуацию и других групп лиц. Любой испытывающий стресс человек или дискомфорт во время допроса получить негативный опыт общения с полицией или же пограничниками, может набрать высокое количество баллов. Что создасть свои собственные формы расового профилирования. Данная программа была подвергнута критике со стороны правления по вопросам подотчетности правительства и групп выступила в поддержку гражданских прав, против ее расовой предвзятости и отсутствия научной методологии. Несмотря на его стоимость в 900 миллионов долларов сша, нет никаких доказательств того, что программа обретет явный успех.

Параллельно тому, как известность Экмана росла, росло и скептическое отношение к его работам и критика из ряда областей. Одним из первых критиков стала культурный антрополог Маргарет Мид, которая в конце 1960-х годов коснулась вопроса об универсальности эмоций. Её не смогла убедить вера Экмана в универсальные биологические детерминанты поведения, которые существуют отдельно от довольно ярко обусловленных культурных факторов.

Учёные из разных областей присоединились на протяжении десятилетий. В последние годы психологи Джеймс Рассел и Хосе-Мигель Фернандес-Дольс показали, что основные аспекты науки остаются невыясненными. Возможно, главным критиком теории Экмана является историк науки Рут Лейс, которая видит фундаментальную цикличность в методе Экмана. Предполагалось, что позированные или смоделированные фотографии, которые он использовал, выражают набор основных эмоциональных состояний, которые «уже свободны от культурного влияния.» Затем эти фотографии использовались для маркировки различных групп населения, чтобы продемонстрировать универсальность выражений лиц. Психолог и нейробиолог Лиза Фельдман Барретт прямо говорит: «Компании могут сказать все, что они захотят, но данные предельно ясны. Они могут выявить угрюмость, но это не то же самое, что распознать гнев.»

Еще более тревожным стало то, что в области изучения эмоций исследователи не пришли к единому мнению о том, чем всё-таки является эмоция. Что такое эмоции, как они формируются внутри нас и проявляются, какими могут быть их физиологические или нейробиологические функции, их связь со мотивацией действия — это остается невыясненным. Почему с таким количеством критики к данному подходу распознавания лиц он еще существует? С 1960-х годов, благодаря значительному финансированию со стороны министерства обороны, было разработано несколько систем, которые с большей точностью измеряют движения лица. Теория Экмана казалась идеальной для компьютерного зрения, потому что она могла быть автоматизирована в полном масштабе. Теория соответствовала тому, что можно было применить на практике.

Были вложены крупные институциональные и корпоративные инвестиции на основе предполагаемой обоснованности теорий и методологий Экмана. Осознание того, что эмоции не легко классифицировать или что они не поддаются надёжному выявлению по выражению лица, может навредить развивающейся индустрии. Во многих машинных работах Экмана говорит так, будто бы эти вопросы уже были решены, прежде чем перейти непосредственно к инженерной работе. Более сложные аспекты по типу контекста, условий, отношений и культуры часто игнорируются. Экман сам сказал, что обеспокоен тем, как его идеи коммерциализируются, но когда он пишет технологическим компаниям, прося доказательства того, что их программы распознавания эмоций работают, он не получает ответ.

Вместо того чтобы пытаться создать больше систем, которые группируют выражения в машиночитаемые категории, мы должны поставить под вопрос происхождение самих эмоций, а также их социальные и политические последствия. Например, данные системы определяют влияние женской речи, особенно чернокожих женщин, в отличие от мужчин. Исследование, проведенное в университете Мэриленда, показало, что некоторые программы распознавания лиц интерпретируют темнокожие лица как обладающие более негативными эмоциями, чем светлокожие лица, особенно регистрируя их как более злобные и подозрительные, даже когда они контролируют свою улыбку.

Это опасность автоматизации распознавания эмоций. Эти инструменты могут вернуть нас в френологическое прошлое, когда ложные утверждения использовались для поддержания существующих систем власти. Десятилетия научных споров об определении эмоционального состояния по лицу человека подчеркивают главное: общее для всех «выявление» не является правильным подходом. Эмоции сложны, и они развиваются и меняются в связи с нашими культурами и историей - во всех многообразных контекстах, которые находятся за пределами искусственного интеллекта.

Но уже сейчас, кандидатов на работу оценивают несправедливо, потому что их выражения лица или тон голоса не совпадают с выражениями лиц других сотрудников. В школах отмечают учеников, потому что их лица кажутся сердитыми, а к клиентам придираются из-за предположений, что их лица указывают на то, что они могут быть магазинными ворами. Эти люди будут расходоваться на данные системы, которые не только технически несовершенны, но и основаны на сомнительных методологиях. Узкая таксономия эмоций, образованная из первоначальных экспериментов Экмана, кодируется в системы машинного обучения как прокси бесконечной неопределенности эмоционального опыта в мире.

Эта статья взята из недавней книги Кейт Кроуфорд, Atlas of AI: Power, Politics, and the Planetary Cost of Artificial Intelligence.