Путем предварительной обработки или постобработки данных, или даже установки срока годности наборов данных, люди могут вмешаться, чтобы исправить машинные модели обучения
Проверка предвзятости искусственного осеменения - это работа для людей.
Одной из основных проблем искусственного интеллекта (ИИ) является "искусственная" часть. Другая - "интеллект". Хотя нам нравится притворяться, что мы освобождаем роботизированный интеллект от наших человеческих предубеждений и других недостатков, в реальности мы часто переносим наши неудачи в ИИ, один набор данных за раз.
Ханна Дэвис, специалист по данным, называет это, утверждая, что "набор данных - это мировоззрение", наполненное субъективными значениями. Но вместо того, чтобы оставить наши надежды на ИИ в прошлом, она также предлагает некоторые способы улучшения данных, которые информируют наш ИИ.
ИИ всегда был о людях
Это стало требуемый этикетом , чтобы утверждать, насколько мы "движимы данными", и нигде больше, чем в ИИ, который полностью зависит от данных, чтобы быть полезными. Одним из чудес алгоритмов машинного обучения, например, является то, как быстро они могут просеять горы данных, чтобы обнаружить закономерности и отреагировать соответствующим образом. Такие модели, однако, должны быть обучены, поэтому ученые, занимающиеся данными, как правило, собираются вокруг установленных высококачественных наборов данных.
К сожалению, эти наборы данных не являются нейтральными, как указывает Дэвис:
Набор данных - это мировоззрение. Он включает в себя мировоззрение людей, которые собирают данные, независимо от того, являются ли они исследователями, художниками или компаниями. Он включает в себя мировоззрение маркировщиков, независимо от того, маркировали ли они данные вручную, неосознанно или через сторонний сервис, такой как Mechanical Turk, который поставляется со своими собственными демографическими предрассудками. Она включает в себя мировоззрение таксономии, созданной организаторами, которые во многих случаях являются корпорациями, чьи мотивы прямо несовместимы с высоким качеством жизни.
Видите проблему? Машинные модели обучения столь же умны, как и наборы данных, которые их питают, и эти наборы данных ограничены людьми, которые их формируют. Это может привести, как сокрушается одна из редакций Guardian, к тому, что машины будут совершать те же самые ошибки, только быстрее: "идея ИИ заключается в том, что оно будет наделять машины способностью распознавать шаблоны из данных и принимать решения быстрее и лучше, чем это делают люди". Что произойдёт, если они будут принимать худшие решения быстрее?"
Еще больше усложняет ситуацию то, что наши собственные ошибки и предубеждения, в свою очередь, формируются машинными обучающими моделями. Как писал Манджунат Бхат: "Люди потребляют факты в виде данных. Тем не менее, данные могут быть мутированы, преобразованы, и все это делается во имя того, чтобы сделать их потребление легким. У нас нет иного выбора, кроме как жить в рамках высоко контекстуализированного взгляда на мир". Мы не видим данных ясно, другими словами. Наши предубеждения формируют модели, которые мы подаем в обучающие модели машин, которые, в свою очередь, формируют доступные нам данные для потребления и интерпретации.
Проблемы с данными - это проблемы людей?
Не обязательно. Как предлагает Дэвис, одна из ключевых вещей, которую мы можем сделать, это установить срок годности наших наборов данных:
Наборы данных машинного обучения рассматриваются как объективные. Они рассматриваются как наземная истина как алгоритмами машинного обучения, так и создателями. И наборы данных сложны, трудоемки и дороги в изготовлении, поэтому, как только набор данных создан, он часто используется в течение длительного времени. Но нет причин придерживаться ценностей прошлого, когда мы, как общество, движемся вперед; аналогичным образом, нет причин удерживать будущее общество в наших нынешних условиях. Наши наборы данных могут и должны иметь сроки годности.
В любой момент времени люди, места или вещи, которые находятся на вершине разума, будут стремиться найти свой путь в наши наборы данных. (Дэвис использует пример ImageNet, созданной в 2009 году, которая возвращает флип-телефоны при поиске "мобильного телефона"). Устанавливая срок действия наборов данных, мы заставляем наши модели идти в ногу с обществом.
В связи с этим возникает еще один вариант, предложенный исследованиями McKinsey, который заключается в повторном введении людей в ИИ. Будь то предварительная обработка данных или пост-обработка данных, люди могут вмешаться, чтобы скорректировать модели машинного обучения. Математика, используемая в модели, может быть безупречной, но добавление людей (да, с предвзятостью) может помочь принять во внимание результаты модели и предотвратить бесконтрольную работу предвзятости.
Если мы не будем осторожны, предупреждает Дэвис: "Легко случайно причинить вред через нечто такое, казалось бы, простое, как сбор и маркировка данных". Но с особой осторожностью мы можем получить большую часть преимуществ ИИ, минимизируя при этом потенциальные предубеждения и другие недостатки, которые машины унаследовали от нас, людей.