Одно из самых важных вещей в нейронах сетях - данные для обучения. Точнее, не просто набор данных, а в варианте: "что на входе - что хотим получить". Если мы хотим просто детектировать объект на картинке (который там обычно один) - то проблем нет. Создаем папку "neco" - кидаем туда кошко-девочек, в папку "fox" - кицуне и т. д. ) Но вот с множественной сегментацией так не пройдет. На картинках для этой задачи может быть несколько разных объектов, несколько экземпляров одного и такого типа. Ту нейросети нужно скормить специально размеченные данные, типа: Смотри, вот тут у нас две кошки, видишь я тебе обвел. Вот тут собака и кот, а вот тут стайка из 3 собак. А тут вообще синий круг и зеленый квадрат. При этом каждый объект должен быть помечен отдельно. Для данной задачи я взял для себя cvat. Во первых это достаточно простой интерфейс и удобство использования, во-вторых его можно установить локально через docker. Не обошлось и без минусов правда. Основной это то что не все функции