...и данная проблема невероятно опасна.
Машинное обучение, или Machine Learning — процесс обучения компьютерных алгоритмов для выполнения новых задач по заданному примеру, используемый во многих сферах — от сельского хозяйства и страхования, до медицины и индустриальной промышленности.
Но искусственный интеллект хорош настолько, насколько хорош датасет, на котором он обучается.
Одна из наиболее популярных отраслей с ипользованием машинного обучения, которая, по всей видимости, привнесёт колоссальные изменения в наше общество, — беспилотные автомобили.
Но с большой силой приходит большая ответственность — плохо обученный автопилот может привести к фатальным последствиям, в прямом смысле.
Вот почему мы были удивлены и крайне обеспокоены, когда изучали один из популярнейших датасетов для автопилота, используемый тысячами студентов для создания open-source автопилотов, содержащий критические ошибки и неточности.
Мы провели ручную проверку 15 000 изображений в широко используемом датасете от Udacity, и нашли проблемы с 4986 (33%) из них.
Среди них без маркировки были тысячи автомобилей, сотни пешеходов, и множество неотмеченных велосипедистов. Мы также нашли множество пустых маркировок, дублирующиеся маркеры, и неправильно отмеченные, ставшие, в следствии, чрезмерно большими, маркеры.
Наиболее вопиющим фактом являлось отсутвие маркировки на 217 (1,4%) изображений, несмотря на наличие пешеходов, автомобилей, велосипедистов, фонарных столбов и фургонов.
Open Source датасеты прекрасны, но если общество планирует доверить нам свою безопасность, — мы должны делать свою работу лучше, обеспечивая гарантию, что данные, которыми мы делимся, — совершенны и точны.
Если вы собираетесь использовать публичные датасеты в собственных проектах, — проявите должную осмотрительность и проведите собственную проверку прежде, чем использовать программу за пределами полигона.