Найти в Дзене
Oleg DB

Датасает для автопилота не имеет маркировок для сотен объектов

...и данная проблема невероятно опасна.

Машинное обучение, или Machine Learning — процесс обучения компьютерных алгоритмов для выполнения новых задач по заданному примеру, используемый во многих сферах — от сельского хозяйства и страхования, до медицины и индустриальной промышленности.

Но искусственный интеллект хорош настолько, насколько хорош датасет, на котором он обучается.

Одна из наиболее популярных отраслей с ипользованием машинного обучения, которая, по всей видимости, привнесёт колоссальные изменения в наше общество, — беспилотные автомобили.

Но с большой силой приходит большая ответственность — плохо обученный автопилот может привести к фатальным последствиям, в прямом смысле.

Вот почему мы были удивлены и крайне обеспокоены, когда изучали один из популярнейших датасетов для автопилота, используемый тысячами студентов для создания open-source автопилотов, содержащий критические ошибки и неточности.

Мы провели ручную проверку 15 000 изображений в широко используемом датасете от Udacity, и нашли проблемы с 4986 (33%) из них.

Среди них без маркировки были тысячи автомобилей, сотни пешеходов, и множество неотмеченных велосипедистов. Мы также нашли множество пустых маркировок, дублирующиеся маркеры, и неправильно отмеченные, ставшие, в следствии, чрезмерно большими, маркеры.

Примеры ошибок (красным отмечены маркеры, отсутсвующие в оригинальном датасете)
Примеры ошибок (красным отмечены маркеры, отсутсвующие в оригинальном датасете)

Наиболее вопиющим фактом являлось отсутвие маркировки на 217 (1,4%) изображений, несмотря на наличие пешеходов, автомобилей, велосипедистов, фонарных столбов и фургонов.

Несколько примеров изображений, содержащих объекты, но не имеющих ни одного маркера в оригинальном датасете
Несколько примеров изображений, содержащих объекты, но не имеющих ни одного маркера в оригинальном датасете

Open Source датасеты прекрасны, но если общество планирует доверить нам свою безопасность, — мы должны делать свою работу лучше, обеспечивая гарантию, что данные, которыми мы делимся, — совершенны и точны.

Если вы собираетесь использовать публичные датасеты в собственных проектах, — проявите должную осмотрительность и проведите собственную проверку прежде, чем использовать программу за пределами полигона.