Ярлык – идентификатор необработанных данных, значимая метка для Целевой переменной (Target Variable), определение которой зачастую становится основной целью Модели (Model) Машинного обучения (ML):
В машинном обучении Маркировка данных (Data Labeling) – это процесс идентификации необработанных данных (изображений, текстовых файлов, видео и т.д.) и добавления одной или нескольких значимых и информативных меток для обеспечения контекста, чтобы модель машинного обучения могла учиться на них. Например, метки могут указывать, есть ли на фотографии птица или машина, какие слова были произнесены в аудиозаписи. Маркировка данных требуется для Компьютерного зрения (CV), Обработки естественного языка (NLP) и Распознавания речи (Speech Recognition).
Как работает маркировка данных?
Сегодня в большинстве практических моделей машинного обучения используется Обучение с учителем (Supervised Learning), которое применяет алгоритм для сопоставления входных и выходных данных. Чтобы контролируемое обучение работало, нам нужен маркированный набор данных, на которых модель может учиться, чтобы принимать правильные решения. Маркировка данных обычно начинается с того, что людей просят вынести суждение о части немаркированных данных. Например, этикетировщика просят пометить все изображения в наборе данных, где есть птица. Маркировка может быть грубой, например, просто «да / нет», или же детальной (определение конкретных пикселей изображения, "затронутых" с птицей). Модель использует метки, предоставленные человеком, для изучения основных закономерностей в данных. Результатом является обученная модель, которую можно использовать для прогнозирования новых данных.
В машинном обучении правильно помеченный набор данных, который мы используем в качестве объективного стандарта для обучения и оценки модели, часто называют «наземной истиной» (Ground Truth). Точность обученной модели будет зависеть от точности фактов, потому очень важно потратить время и ресурсы на обеспечение высокоточной маркировки данных.
Какие бывают распространенные типы маркировки данных?
- Компьютерное зрение: при создании такой системы нам сначала предстоит пометить изображения, пиксели или ключевые точки или создать границу (ограничивающую рамку), полностью охватывающую цифровое изображение, для создания набора Тренировочных данных (Train Data). Например, мы можем классифицировать изображения по типу (например, изображения продукта или стиля интерьера) или по содержанию (что на самом деле находится на изображении).
- Обработка естественного языка требует, чтобы мы сначала вручную идентифицировали важные разделы текста или пометили текст определенными метками. Например, мы определяем эмоциональную окраску или намерение рекламного текста, определяем части речи, классифицируем имена собственные (места и люди), а также текст на изображениях, PDF- и других файлах. Для этого мы можем нарисовать ограничивающие рамки вокруг текста, а затем вручную расшифровать текст в своем наборе обучающих данных. Модели обработки естественного языка используются для Анализа тональности текста (Sentiment Analysis) и оптического распознавания символов (OCR).
- Обработка звука преобразует все виды аудиодорожек (речь, шумы дикой природы, "промышленные" звуки – бьющееся стекло, сигналы тревоги) и структурируют их, чтобы использовать при создании распознающего Алгоритма (Algorithm). Обработка аудио часто требует, чтобы мы сначала вручную преобразовали его в письменный текст и оттуда получили более подробную информацию с помощью тегов.
Передовые методы маркировки данных
Существует множество методов повышения эффективности и точности маркировки данных. Некоторые из этих методов включают:
- Интуитивно понятные и оптимизированные интерфейсы, помогающие минимизировать когнитивную нагрузку на специалистов.
- Соглашение между специалистов по маркировке, чтобы помочь противодействовать ошибкам и предвзятости отдельных лиц.
- Активное обучение для повышения эффективности маркировки данных. С помощью машинного обучения определяются наиболее полезные данные к размечиванию.
Как можно эффективно маркировать данные?
Успешные модели строятся на больших объемах высококачественных обучающих данных. Но процесс создания обучающих данных, необходимых для построения этих моделей, часто бывает дорогостоящим, сложным и требует много времени. Большинство современных моделей требуют, чтобы человек вручную пометил данные таким образом, чтобы модель могла научиться принимать правильные решения. Чтобы решить эту проблему, маркировку можно сделать более эффективной за счет использования маркирующей модели. Такой алгоритм сначала обучается на подмножестве необработанных данных, которые были помечены людьми. Если модель маркировки имеет высокую степень уверенности в своих результатах, то автоматически "навешивает" метки на необработанные данные. Если модель имеет меньшую уверенность в своих результатах, то передаст данные людям для маркировки. Созданные человеком метки затем передаются обратно в модель для переобучения и улучшения классифицирующей способности. Со временем модель может автоматически маркировать все больше и больше данных, что существенно ускоряет создание обучающих наборов.
Автор оригинальной статьи: Amazon
Фото: @albertorestifo
Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте курсы на Udemy.