Найти в Дзене
Интересное о мире

Искусственному интеллекту (ИИ) нужно больше данных!

В 2018 году в Сиетле открылся первый магазин Amazon Go. Магазины работают магией ИИ, без касс и продавцов — клиенты устанавливают приложение на телефон, набирают товары и при выходе с карты покупателя списывается сумма товаров в корзине. Работает система с помощью множества камер и датчиков, которые следят за каждым товаром и покупателем.  Работа над магазином велась 5 лет. Сложностей у разработчиков было много: система должна справляться с потоком людей, не “паниковать”, если покупатели с товаром исчезают за спинами других людей, распознавать друзей или семейные группы. И это в режиме реального времени, с высокой точностью и скоростью.  Для решения этих задач нужны данные.  Теоретически, мир наводнен данными. Ориентировочно, в 2018 году в мире было произведено 33 зетабайта данных, это 7 триллионов DVD-дисков.  Но тем не менее, для ИИ этих данных недостаточно. Иногда необходимые данные могут вовсе не существовать. Иногда не пригоды для анализа. Либо принадлежат конкурентам.  Чтобы н

В 2018 году в Сиетле открылся первый магазин Amazon Go. Магазины работают магией ИИ, без касс и продавцов — клиенты устанавливают приложение на телефон, набирают товары и при выходе с карты покупателя списывается сумма товаров в корзине. Работает система с помощью множества камер и датчиков, которые следят за каждым товаром и покупателем. 

Работа над магазином велась 5 лет. Сложностей у разработчиков было много: система должна справляться с потоком людей, не “паниковать”, если покупатели с товаром исчезают за спинами других людей, распознавать друзей или семейные группы. И это в режиме реального времени, с высокой точностью и скоростью. 

Для решения этих задач нужны данные. 

Теоретически, мир наводнен данными. Ориентировочно, в 2018 году в мире было произведено 33 зетабайта данных, это 7 триллионов DVD-дисков. 

Но тем не менее, для ИИ этих данных недостаточно. Иногда необходимые данные могут вовсе не существовать. Иногда не пригоды для анализа. Либо принадлежат конкурентам. 

Чтобы найти исходную базу для машинного обучения компании создают целые подразделения или обращаются к аутсорсингу. По подсчетам компании Cognilytica, в 2019 году объем рынка “подготовки данных” для третьих лиц составлял более $1,5 млрд, а к 2024 году он может вырасти до $3,5 млрд. 

Предвзятость — еще один источник проблем. В 2019 году американский Национальный институт стандартов и технологий протестировал почти 200 алгоритмов распознавания лиц и обнаружил, что многие из них значительно менее точны при идентификации черных лиц, чем белых. Эта проблема может отражать преобладание белых лиц в их тренировочных данных — более 80% лиц в трех широко используемых тренировочных наборах имели светлую кожу.

Такие недостатки, по крайней мере теоретически, легко исправить. Другие источники предвзятости могут быть сложнее устранить. 

В 2017 году Amazon отказалась от проекта с использованием ИИ по подбору персонала, предназначенного для поиска резюме и выявления сильных кандидатов. Система была названа сексисткой и не политкорректной, так как отбирала в основном кандидатов мужского пола. Интернет наводнился спорами на извечную тему “Кто умнее: мужчины или женщины”. 

-2

А все оказалось просто: cистема была обучена на основе резюме предыдущих успешных кандидатов в компании. Поскольку техническая рабочая сила уже в основном состоит из мужчин, система, обученная на исторических данных, цеплялась за мужественность как сильный предиктор пригодности. Amazon отказалась от проекта, не найдя возможности “обмануть” систему.

Но даже если данных хватает, они корректны и ИИ работает верно, нет гарантии, со временем решения системы останутся верными в постоянно изменяющемся мире. 

Так, например, всвязи с ковид-19, некоторые системы распознавания лиц требуют вмешательства разработчиков, так как маски на лицах стали нормой. Автоматизированные логистические системы нуждались в помощи людей, чтобы справиться с внезапным спросом на рулон туалетной бумаги, муку и другие основные продукты. Изменчивость мира означает большее обучение, что означает предоставление машинам еще большего количества данных в бесконечном цикле переобучения.