________________________________________
#SpecialReport
Магазины «Go» от Amazon впечатляют.
Это магазины без касс, впервые открывшиеся в Сиэтле в 2018 году, позволяют клиентам с установленным приложением Amazon на смартфоне брать товары и просто выходить с ними из магазина.
Система использует множество датчиков, но бОльшую часть магии берут на себя камеры, подключенные к системе искусственного интеллекта, которая отслеживает предметы, когда их берут с полок. Как только покупатели уходят со своими покупками, происходит расчет, а товары автоматически списываются.
Сделать это в переполненном магазине непросто. Система должна обрабатывать данные о пространстве, в котором люди исчезают из поля зрения один за другим. Она должна распознавать как отдельных клиентов, так и друзей или семьи (если ребенок кладет товар в семейную корзину, система должна понимать, что должна взимать плату с родителей).
И все это искусственный интеллект должен делать в режиме реального времени, причем с высокой точностью.
Машинное обучение требовало демонстрации им большого количества данных в виде видеозаписей, на которых клиенты смотрят товары, кладут их обратно или кладут в корзину и тому подобное. Для стандартизированных задач, таких как распознавание изображений, разработчики ИИ могут использовать общедоступные обучающие наборы данных, каждые из которых содержит тысячи изображений.
Некоторые данные возможно получены самими сотрудниками Amazon, которые были допущены в тестовые версии магазинов.
Есть много способов, которыми человек может взять продукт с полки, а затем решить выбрать его, немедленно положить обратно или вернуть позже. Чтобы эффективно работать в реальном мире, система должна охватить как можно больше таких объектов.
Теоретически мир наводнен данными, которые равняются жизненной силе современного искусственного интеллекта. Компания idc, занимающаяся исследованием рынка, считает, что в 2018 году в мире было произведено 33 зеттабайта данных, достаточных для заполнения семи триллионов DVD-дисков.
Но Кэтлин Уолч из Cognilytica, консалтинговой компании, ориентированной на ИИ, говорит, что, тем не менее, проблемы с данными являются одним из самых распространенных препятствий в любом проекте, связанном с ИИ.
Как и в случае с Amazon, необходимые данные могут вообще не существовать. Или они могут быть заперты в подвалах конкурента. Даже если соответствующие данные можно откопать, они могут оказаться непригодными для передачи на компьютеры.
По словам Cognilytica, споры о данных занимают около 80% времени, затрачиваемого на типичный проект по разработке искусственного интеллекта.
Машинное обучение требует большого количества тщательно маркированных примеров, и эти ярлыки должны применяться людьми. Крупные технологические фирмы часто выполняют эту работу внутри компании.
Компании, которым не хватает необходимых ресурсов или опыта, могут воспользоваться услугами растущей индустрией аутсорсинга, чтобы всё это сделали за них. Китайская компания mbh, наняла более 300 000 человек для маркировки изображений лиц, уличных сцен или медицинских обследований, чтобы всё это можно было обрабатывать.
Mechanical Turk, еще одно подразделение Amazon, предоставляет компаниям услуги разнорабочих, которым платят за выполнение повторяющихся задач.
По подсчетам компании Cognilytica, в 2019 году объем рынка «подготовки данных» для третьих лиц составлял более $1,5 млрд, а к 2024 году он может вырасти до $3,5 млрд.
Аналогично обстоят дела с маркировкой данных: в 2019 году компании потратят не менее 1,7 миллиарда долларов, а к 2024 году эта цифра может достичь 4,1 миллиарда долларов.
Данные могут содержать ловушки. Системы машинного обучения соотносят входные данные с выходными, но делают это вслепую, не осознавая контекста.
В 1968 году Дональд Кнут предупредил, что компьютеры «делают именно то, что им говорят, не больше и не меньше».
Машинное обучение изобилует примерами изречения Кнута, в котором машины точно следуют «букве закона».
В 2018 году исследователи из Маунт-Синай, сети больниц в Нью-Йорке, обнаружили, что ИИ, обученная распознавать пневмонию на рентгеновских снимках грудной клетки, стала работать хуже при использовании в больницах, отличных от тех, в которых она была обучена.
Исследователи обнаружили, что машина смогла вычислить, из какой больницы пришли результаты обследования.
Поскольку исходная частота пневмонии в одной больнице была намного выше, чем в других, этой информации было достаточно, чтобы существенно повысить точность системы.
Расизм в больших данных
Предвзятость и дискриминация – тоже источники проблем. В прошлом году американский Национальный институт стандартов и технологий протестировал почти 200 алгоритмов распознавания лиц и обнаружил, что многие из них значительно менее точны при идентификации лиц темнокожих, чем белых.
Эта проблема может отражать преобладание белых лиц в тренировочных данных. Исследование ibm, опубликованное в прошлом году, показало, что более 80% лиц в трех широко используемых тренировочных наборах данных имели светлую кожу.
Такие недостатки, по крайней мере теоретически, легко исправить (ibm предложила более репрезентативный набор данных для любого пользователя).
Другие источники предвзятости сложнее устранить. Например, сексизм.
В 2017 году Amazon отказалась от проекта по подбору персонала, предназначенного для поиска резюме для выявления подходящих кандидатов, когда система начала отдавать предпочтение лицам мужского пола.
Выяснилось, что система была обучена на основе резюме предыдущих успешных кандидатов в компанию. Но поскольку техническая рабочая сила уже в основном состоит из мужчин, система, обученная на исторических данных, будет цепляться за мужественность как сильный предиктор пригодности.
В большинстве богатых стран работодатели не могут нанимать работников на основе таких факторов, как пол, возраст или раса. Но алгоритмы могут перехитрить своих человеческих хозяев, используя прокси-переменные для восстановления запрещенной информации.
Все, от хобби до предыдущей работы и кодов районов в телефонных номерах, может содержать намеки на то, что кандидат, скорее всего, будет женщиной, или молодым специалистом, или из этнического меньшинства.
Если трудностей, связанных с реальными данными, слишком много, один из вариантов – создать некоторые данные самостоятельно. Именно это сделала Amazon, чтобы настроить свои магазины «Go».
Компания использовала графическое программное обеспечение для создания виртуальных покупателей. Эти «люди» использовались для обучения машин во многих сложных или необычных ситуациях, которые не возникали в реальных массивах данных, но могли возникнуть, когда система будет развернута в реальности.
Так делают не только в Amazon. В статье, опубликованной в 2018 году чипмейкером Nvidia, описан метод быстрого создания синтетических обучающих данных для самоуправляемых автомобилей. Авторы статьи приходят к выводу, что полученные алгоритмы работают лучше, чем те, которые обучаются только на реальных данных.
Конфиденциальность — это еще одна привлекательность синтетических данных. Фирмы, надеющиеся использовать искусственный интеллект в медицине или финансах, должны бороться с такими законами, как американский закон о переносимости и подотчетности медицинского страхования или общее положение Европейского союза «О защите данных».
Анонимность данных может стать проблемой, о которой не нужно беспокоиться системам, обученным на выдуманных людях.
Главное, чтобы моделирование было достаточно близко к реальности. Для некоторых проблем, таких как обнаружение мошенничества или кредитный скоринг, это просто.
Синтетические данные могут быть созданы путем добавления статистического шума к реальности. Таким образом, хотя отдельные операции являются фиктивными, можно гарантировать, что в совокупности они будут обладать теми же статистическими характеристиками, что и реальные данные, из которых они были получены.
Но чем сложнее становится проблема, тем труднее гарантировать, что уроки из виртуальных данных будут плавно транслироваться в реальный мир.
Остается надеяться, что после обучения модель машинного обучения окупит усилия по миллионам автоматизированных решений. Amazon открыла 26 магазинов Go и предложила лицензировать технологию другим ритейлерам.
Но даже здесь есть причины для осторожности.
Существует явление «дрейфа» данных. Изменчивость мира означает большую потребность в обучении, привыканию к новому обучению, что означает необходимость предоставления машинам еще большего количества данных в бесконечном цикле переобучения.
«Искусственный интеллект – это не сделал и забыл». ■