US-DATA - Labeling Insider (разметка без иллюзий)

1 подписчик

Разметка в CVAT: Почему одного инструмента недостаточно для разметки данных в AI-проектах.

27 мая27 мая

6 мин

Но почему-то они забывают, что тот же CVAT – это лишь интерфейс для работы с данными. Качество и скорость разметки зависят не только от возможностей системы, но ещё и от того, как выстроен весь процесс работы: от постановки задачи до контроля качества датасета. 5 главных ошибок, которые разрушат вашу аннотацию данных 1. Нет чёткого плана и правил работы

Некоторые люди воспринимают процесс разметки как линейную операцию, для которой не нужен отдельный план: «просто передали данные и получили размеченный датасет». И было бы, наверное, здорово, если бы всё так и работало, но в реальной жизни без чётко описанного пайплайна возникает ряд проблем: ●

Несмотря на то, что MLсуществует уже далеко не первый год, некоторые компании всё ещё считают, что для удачного запуска проекта в области машинного обучения и компьютерного зрения достаточно всего лишь выбрать один инструмент для аннотации данных, как, к примеру, CVAT или его аналоги, и тогда разметка данных сразу станет удобной и предсказуемой.
Но почему-то они забывают, что тот же CVAT – это лишь интерфейс для работы с данными. Качество и скорость разметки зависят не только от возможностей системы, но ещё и от того, как выстроен весь процесс работы: от постановки задачи до контроля качества датасета.

5 главных ошибок, которые разрушат вашу аннотацию данных

1. Нет чёткого плана и правил работы
Некоторые люди воспринимают процесс разметки как линейную операцию, для которой не нужен отдельный план: «просто передали данные и получили размеченный датасет». И было бы, наверное, здорово, если бы всё так и работало, но в реальной жизни без чётко описанного пайплайна возникает ряд проблем:

● Разные аннотаторы по-разному интерпретируют классы. К примеру, один аннотатор присваивает табличке с текстом тип «изображение», а другой ставит тип «текст». В итоге одна картинка получает две разных аннотации, что может в будущем повлиять на качество работы нейросети.

● Нет чёткого понимания того, как, где и какие границы объектов использовать.

● Данные становятся неточными, неполными, появляется множество дубликатов.

Получается такая картина: модель, в которую было вложено много денег и времени, обучается на неоднородном и кривом датасете, который вместо того чтобы учить нейросеть, забивает её мусором.

2. Некачественные или неполные гайдлайны
Когда вы готовитесь начать разметку данных, представьте, что вы директор школы, которому нужны не только хорошие учителя, но и качественные учебники, которые они будут использовать.
Если вы при подготовке к разметке данных решили ограничиться кратким описанием классов без примеров и edge-case-сценариев, то конечный результат вас вряд ли обрадует.
Аннотаторам необходимо:

● Понимать точные критерии, по которым они будут включать/исключать объект.

● Иметь на руках примеры корректной и некорректной разметки.

● Знать, как действовать в спорных ситуациях, чтобы не было как в примере с табличкой и текстом, когда одно изображение получает две разных аннотации.

Без всего этого ошибки в разметке начнут собираться в огромный снежный ком.

3. Отсутствие системы контроля качества (QA)
Чтобы быть уверенным, что учитель хороший и у него есть качественный материал, нужно проводить контроль качества.

Разметка данных без оценки качества также приводит к накоплению ошибок в датасете.

Есть три наиболее часто используемых в AI-проектах базовых механик контроля качества:

Двойная разметка (consensus labeling)
Берётся одна метка (изображение, текст, звук или что-то ещё) и отдаётся нескольким аннотаторам, чтобы они её оценили. Ответы друг друга они не видят. Потом система сравнивает результаты и берёт самый частый ответ как финальный. Если возникает спорный момент, к примеру, из 6 человек 3 дали положительную оценку, а другие 3 – негативную, то задача уходит на разбор к старшему сотруднику.

Проверка через gold dataset
Заранее берут несколько сотен примеров, которые тщательно проверяют эксперты, размечают их и делают из них своего рода эталонные правильные ответы. Потом, когда обычный разметчик занимается аннотацией, ему незаметно подсовывают такие примеры вперемешку с обычными задачами. Он не знает, что перед ним контрольный вопрос. После его ответ сравнивают с эталоном и смотрят, насколько точно он работает.

Выборочный аудит (sampling QA)
Это самый долгий и дорогой способ проверки. Берётся выборка из нескольких аннотаций из работ каждого аннотатора. Если в этой выборке ошибок мало – всё хорошо. Если много – поднимают тревогу и выясняют, в чём проблема.

Без QA ошибки попадают в обучающую выборку и портят качество модели. Если проблему не искоренить в зачатке, а обратить на неё внимание уже на этапе обучения и продакшена, то стоимость исправления будет значительно выше.

4. Ограничения интерфейса и UX инструмента

Хоть инструмент и не является основной причиной проблем, он всё равно существенно влияет на производительность. К примеру, если в системе у аннотаторов нет горячих клавиш, а сам интерфейс часто зависает, то время работы сильно увеличивается. Если разметчикам неудобно работать с границами объектов, то страдает точность аннотации.

Даже при хорошо выстроенных процессах плохой UI и UX могут увеличить стоимость разметки в несколько раз.

5. Некому управлять процессом разметки
Допустим, у нас есть хорошие учителя (аннотаторы), качественные учебники (гайдлайны) и даже с техникой всё хорошо (UX, UI). Но нам всё ещё не хватает одной вещи – человека, который будет руководить всем процессом.
В крупных AI-проектах есть отдельный человек, которого называют annotation manager или data curator. Это не просто «старший аннотатор», это тот, без кого весь процесс рано или поздно начинает разваливаться.

Что делает annotation manager:

● Следит за тем, чтобы гайдлайны были актуальными, потому что задачи со временем меняются, и инструкции должны меняться вместе с ними.

● Разбирает спорные кейсы, когда аннотаторы не могут договориться между собой.

● Контролирует качество разметки и следит за тем, чтобы не накапливались ошибки.

● Служит мостом между аннотаторами и ML-инженерами, чтобы те, кто делает разметку, понимали, как и зачем это делать, а те, кто обучает модель, знали, что происходит с данными для обучения.

Если такого человека нет в команде, процесс разметки превращается в неуправляемый хаос: каждый работает по-своему, никто не следит за ошибками, а на их исправление уходит в разы больше времени и денег, чем если бы проблемы решались сразу.

Как плохая разметка убивает нейросеть
В машинном обучении есть один простой и беспощадный принцип, который следует запомнить: garbage in – garbage out. Что положишь в обучающую выборку – то и получишь на выходе. Грубо говоря, представьте, что вы готовите борщ. Если вы добавите в него немного подпорченной капусты, то результат уже будет несъедобным. Так и с разметкой данных.

Некачественная разметка приводит к тому, что:

● Точность модели падает.

● Нейросеть нестабильно ведёт себя на валидации: на одних данных работает хорошо, на других – плохо.

● ИИ плохо обобщает – то есть хорошо запоминает обучающую выборку, но не справляется с новыми данными в продакшене.

Бывает, что команда начинает «чинить» модель – подбирать архитектуру, крутить гиперпараметры, добавлять новые данные. На всё это уходят недели и большое количество денег. А настоящая проблема всё это время сидит в датасете.

Что делать
Чтобы разметка данных не превратилась в испорченный борщ, нужно выстроить несколько базовых вещей:

● Чёткий пайплайн – строгий порядок действий от получения данных до финального датасета.

● Подробные гайдлайны с примерами – руководство для аннотаторов, которое поможет им работать по одним правилам, а не в хаосе.

● Встроенный контроль качества – двойная разметка, gold dataset, выборочный аудит.

● Инструмент, сделанный именно под вашу задачу – CVAT или аналог, который удобен конкретно для вашего типа данных и не тормозит работу.

● Annotation manager– человек, который отвечает за данные, работу аннотаторов, взаимодействует с ML-инженерами и не даёт процессу разваливаться.

Итог
CVATи другие инструменты аннотации – это всего лишь одна часть пазла, хоть и важная. Инструмент не сделает разметку качественной сам по себе.
Качество датасета определяется тем, как у вас выстроена работа: процессы, правила, взаимодействие между специалистами и контроль качества. Без этого фундамента даже самые продвинутые инструменты не дадут нужного результата. А вот при выстроенной рабочей системе большинство задач можно эффективно решать с помощью стандартных, общедоступных решений – без дорогостоящих платформ и сложных интеграций.

О компании US-DATA

US-DATA занимается разметкой данных и подготовкой датасетов для машинного обучения, computer vision, NLP и AI-проектов.

Команда работает с изображениями, видео, аудио и текстами, помогает выстраивать гайдлайны, контроль качества и передавать данные в нужных форматах — COCO, YOLO, CVAT, Pascal VOC, CSV и других.

Подробнее: https://usdataml.com/