В эпоху внедрения нейронных сетей и искусственного интеллекта в различные сферы жизни, вопрос обеспечения их безопасности и надежности становится все более актуальным. Несмотря на значительные достижения в области разработки и обучения нейросетей, недостаточное внимание к тестированию может привести к серьезным последствиям. В данной статье мы рассмотрим, какие проблемы возникают из-за этого и к каким фатальным последствиям это может привести создателей и общество.
Что значит протестировать нейросеть или ИИ.
Алгоритм тестирования нейронных сетей включает в себя несколько этапов, которые помогут оценить их работоспособность, точность и обобщающую способность. Один из ключевых шагов в алгоритме — это тестирование на ранее не использованных данных, чтобы убедиться, что модель способна обобщать свои знания на новые ситуации.
Общий алгоритм тестирования нейронных сетей может включать в себя несколько этапов:
1. Подготовка данных:
- Собрать и подготовить данные для обучения и тестирования нейронной сети.
- Разделить данные на обучающую, валидационную и тестовую выборки.
2. Обучение модели:
- Выбрать архитектуру нейронной сети и определить гиперпараметры.
- Обучить модель на обучающей выборке.
3. Оценка модели:
- Оценить производительность модели на валидационной выборке для настройки гиперпараметров.
- Провести анализ метрик качества (например, точность, полнота, F1-мера).
4. Тестирование на тестовой выборке:
- Оценить производительность обученной модели на тестовой выборке.
- Проверить метрики качества и сравнить их с результатами на валидационной выборке.
5. Тестирование на ранее не использованных данных:
- Подготовить новые данные, которые модель не видела во время обучения.
- Протестировать модель на этих данных, чтобы проверить ее способность обобщения.
6. Анализ результатов:
- Проанализировать результаты тестирования на ранее не использованных данных.
- Оценить способность модели обобщать знания на новые ситуации.
7. Итеративное улучшение:
- В случае неудовлетворительных результатов на новых данных, вернуться к этапу обучения или изменить архитектуру модели.
- Повторять процесс тестирования и анализа до достижения желаемого результата.
Тестирование на ранее не использованных данных является важным шагом, поскольку позволяет оценить способность модели работать в реальных условиях и делать точные прогнозы для новых наблюдений. Этот шаг помогает избежать переобучения и убедиться в обобщающей способности нейронной сети.
К сожалению, компании не всегда придают значение проверке искусственного интеллекта. Разберем некоторые примеры и последствия
Tesla и проблемы с автопилотом.
В 2020 году произошел инцидент, когда автомобиль Tesla Model S, работающий в автономном режиме, столкнулся с полицейским автомобилем в США. По данным полиции, система автопилота не распознала полицейский автомобиль, который двигался в попутном направлении, и не смогла предотвратить столкновение. В результате аварии никто не пострадал, но это стало серьезным предупреждением о том, что недостаточное тестирование автономных систем может привести к опасным ситуациям на дороге.
Для исключения подобных ситуаций необходимо проводить тестирование нейронных сетей в различных условиях дорожного движения, включая различные погодные условия, времена суток и типы дорог. Также важно уделять внимание обучению нейронных сетей на разнообразных дорожных ситуациях, включая нестандартные сценарии, чтобы обеспечить их адекватную реакцию.
В данному случае не была до конца проведена подготовка данных, т.е. Первый пункт из ранее приведенного плана проверки. Видимо Tesla не учла такое явление на дороге как полицейский автомобиль.
Knight Capital и “сгоревшие” миллионы долларов.
В 2012 году торговые алгоритмы высокочастотной торговли привели к резкому падению цен на акции компании Knight Capital из-за ошибки в программном обеспечении, что привело к потере около $440 миллионов за один день.
Во втором квартале этого же года Knight Capital Group заработала 289 миллионов долларов, однако эта сумма оказалась меньше убытков, понесенных в результате ошибочной торговли. После обнародования информации об ошибке, акции одного из крупнейших биржевых брокеров США упали на NYSE в четыре раза. Сбой в автоматизированной системе продолжался всего 45 минут, что означает, что каждая минута неправильных сделок обошлась Knight Capital Group примерно в десять миллионов долларов, по данным The New York Times.
Как можно понять, при тестировании было упущение на пятом пункте плана тестирования. Проверка обучения не была должным образом выполнена на достаточном наборе данных, другими словами из-за недостаточного моделирования различных рыночных сценариев и стресс-тестирования системы. Чтобы избежать подобных проблем, необходимо проводить тщательное моделирование различных рыночных ситуаций и стресс-тестирование системы на предмет ее устойчивости к экстремальным условиям.
Рекомендации от бигтеха как путь к разлому общества и проблемам компании.
Начиная с начала 2010-х годов, компании, такие как YouTube и Facebook, начали активно применять искусственный интеллект в своих алгоритмах рекомендаций. Эти алгоритмы были предназначены для персонализации контента, чтобы удовлетворить интересы и предпочтения каждого отдельного пользователя. Однако в процессе развития стало ясно, что такие системы могут столкнуться с нежелательными последствиями.
YouTube, например, столкнулся с критикой за то, что его алгоритмы рекомендаций подталкивали пользователей к просмотру экстремистских или дезинформационных видео. Так, в этом году фейковый Илон Маск, предлагающий отправить ему криптовалюту, попал в рекомендации YouTube Live, при том трансляцию посмотрели 30 000 человек что вызвало негативную реакцию пользователей.
Аналогично, Facebook* также сталкивался с проблемами связанными с алгоритмами рекомендаций, которые могли усиливать пузыри фильтрации и политическую поляризацию. Из-за этого основателю Meta** Марку Цукербергу пришлось давать свои пояснения в конгрессе США, что имело последствия для всей компании.
Эти ошибки могли возникнуть из-за недостаточной обученности алгоритмов на разнообразных данных, что привело к непредвиденным рекомендациям. Для предотвращения подобных ситуаций, нужно обратиться к шестому пункту плана тестирования, проанализировав полученные результаты, после чего необходимо обеспечить более широкое обучение алгоритмов на разнообразных данных, включая контент с различными точками зрения и оценками.
Предвзятость в системах искусственного интеллекта при распознавании лиц.
На данном этапе развития общества идет очень сильная борьба с предвзятостью к кому бы то ни было по какому-либо признаку. Но ИИ и нейросети обучаются на действиях людей, поэтому и пороки им не чужды.
Такие проблемы можно наблюдать в системе распознавания лиц от Amazon, Rekognition. По исследованиям, проведенным Гражданским союзом и другими организациями в 2018 году было обнаружено, что система Rekognition допускала ошибки при идентификации лиц у людей с темным цветом кожи и женщин.
Исследователи использовали базу данных фотографий знаменитостей и сравнили их с базой данных фотографий преступников. Результаты показали, что система Rekognition неправильно идентифицировала 28 человек из 40, которые были ошибочно отмечены как осужденные. Большинство ошибочно идентифицированных людей были темнокожими, включая известных активистов за права граждан.
Этот пример подчеркивает проблему в системах распознавания лиц, где некорректные и предвзятые результаты могут возникать из-за недостаточной точности при распознавании лиц людей с определенными этническими особенностями. Такие ошибки могут иметь серьезные последствия, включая нарушения прав человека и дискриминацию.
В данном случае при разработке системы следовало обратить внимание на второй пункт плана тестирования и расширить модели обучения и данных для проверки, необходимо обеспечить более широкое и разнообразное обучение систем распознавания лиц на данных, учитывающих различные этнические особенности.
Недостаточное тестирование искусственного интеллекта и нейронных сетей может привести к серьезным последствиям, включая уязвимости, непредсказуемое поведение и даже потенциальные угрозы безопасности. Поэтому важно, чтобы разработчики и компании уделяли должное внимание тестированию и проверке своих AI-решений, минимизируя риски и обеспечивая безопасность и надежность в мире, где технологии AI играют все более значимую роль.
Дзутцев Руслан Sr. QA-Engineer
____________________________________________________________________________________
Подпишитесь чтобы не пропустить новые статьи, впереди много интересного!
Deventica - Ускоряем цифровую трансформацию бизнеса, облегчаем переход к технологической независимости, разрабатываем, тестируем, сопровождаем. Наши контакты в шапке профиля.
*Принадлежит организации, признанной в РФ экстремистской, и деятельность которой запрещена на территории РФ
**Организация, признанная в РФ экстремистской, и деятельность которой запрещена на территории РФ