Существует заблуждение, что работать с машинным обучением могут только гении математики. На самом же деле большинство приложений, завязанных на машинном обучении, – это простые в освоении, хорошо протестированные и готовые алгоритмы.
Для многих разработчиков, а особенно тех, кто работает в стартапах, настоящее испытание кроется в работе с данными. Справиться с ним можно только благодаря грамотному подходу к разработке продукта с точки зрения пользовательского опыта.
Нужно ли вам машинное обучение на самом деле?
Машинное обучение может сделать любой хороший продукт еще лучше: более вовлекающим, более отзывчивым и более эффективным. Но перед тем как подступиться к машинному обучению, подумайте о том, какие алгоритмы подходят вашему продукту.
Начните тестирование обучающего аспекта с людьми, перед тем, как перейти к компьютерам. Это даст вам лучшее понимание того, насколько будет хорош результат. Тестирование машинного обучения также даст понять, где нужно участие человека, а где возьмут верх компьютеры.
Часто золотая середина продукта находится где-то между человеческим участием и автоматизированным машинным обучением. Либо человек начинает помогать алгоритму, когда тот не может справиться, либо компьютер помогает человеку масштабировать работу. Например, в Clara Labs дифференцировали обязанности работы ассистента по расписанию, благодаря пониманию того, какие задачи подходят для алгоритмов, а где необходима помощь человека.
Как только вы определитесь с тем, какие преимущества от машинного обучения получит ваш продукт и как его правильно использовать, вам предстоит решить проблему маркировки данных.
Маркировка данных
Без высококачественных, маркированных и подготовленных данных, точность машинного обучения снижается. Маркировка обеспечивает предсказание, классификацию и анализ данных с большой точностью.
Ручная маркировка данных — неблагодарная, относительно низкоуровневая работа. Лучшие продукты, завязанные на машинном обучении, находят способы интегрировать маркировку в общую картину приложения.
Придание ценности меткам?
Для огромного количества меток, необходимых для тренировки алгоритма, ручная маркировка часто занимает слишком много времени. Вместо этого хорошо спроектированные и продуманные приложения используют пользователей в процессе маркировки. Цель заключается в том, чтобы взять задачу, с которой люди хорошо справляются, передать все знания приложениям и позволить компьютерам этим заниматься.
Возьмем к примеру reCAPTCHA — бесплатный сервис от Google, помогающий защитить сайты от спама. Пользователь должен определить, что находится на картинках, чтобы доказать, что он не бот. В то же время reCAPTCHA тренирует алгоритмы, чтобы распознавать объекты из реального мира. Изображения сами по себе являются обучаемыми данными, а когда пользователи определяют объекты на них, данные получают необходимые метки.
Здесь есть и свои проблемы. Маркировка не может быть бесконечным способом для работы. Если задача, которую вы используете для обучения данных, не несет ценности или не интересна людям, то люди не будут пользоваться вашими услугами и принимать участие в обучении данных. Даже reCAPTCHA со своим ясным и понятным смыслом обезопасить сайты действует пользователям на нервы — проблема, с которой Google пытается справляться.
Если пользователи отмечают ваши данные, то сам процесс маркировки должен быть понятным и приносить моментальную ценность. Говоря в общем, существует два вида ценностей. В первом, действие является ценным само по себе. Например, когда мы хотим отметить людей на фотографии в Facebook потому, что это позволит нашим друзьям и родным понять, что они есть на каких-то фотографиях. Благодаря этим меткам Facebook начинает различать лица людей, что облегчит поиск лиц на фотографиях в будущем. Несмотря на то, что распознавание лица вашего друга может потребовать от алгоритма Facebook какое-то время для обучения, этот процесс маркировки является сам по себе ценным.
Второй же вид ценностей исходит из моментального влияния. Netflix просит пользователей оценить фильмы и обещает, что это поможет усовершенствовать дальнейшие рекомендации. Чтобы доказать это, Netflix моментально показывает вам новые рекомендации основанные на том, какую оценку вы только что поставили.
Другим подходом является превращение процесса маркировки в игру. Foursquare успешно позволяла пользователям поделиться своим местоположением с помощью чек-инов. Пользователи обеспечивали маркировку локаций, соревнуюсь за различные звания и награды внутри приложения.
Хотя привязка процесса маркировки к получению ценности и пользы и является эффективным способом привлечения пользователей к обучению данных, существуют и стратегии, которые не требуют активного вовлечения пользователей.
Извлечение выгоды из настроения
Одним из способов привлечения пользователей к активной маркировке данных является изучение их настроения. Плюсы такого подхода в том, что пользователю не нужно принимать активное участие в процессе маркировки. Это исключает множество проблем, которые могут негативно повлиять на пользовательский опыт.
Amazon, например, изучает покупки своих пользователей и на основе этого предлагает продукты и акции.
Обучение без учителей
В ближайшем будущем пользователи станут не так важны в процессе тренировки данных. Симуляции создают наполненное окружение и являются отличным способом для маркировки данных. Шахматы, Go и Pong — те игры, которые легко симулировать, что позволяет создавать тысячи и даже сотни тысяч возможных сценариев развития событий.
Разработчик беспилотных автомобилей Waymo использует виртуальное окружение, основанное на реальных локациях, для обучения автомобилей работе в реальном мире. Такие компании и выполняют необходимую маркировку без участия человека.
Пользовательский опыт превыше всего
Машинное обучение может помочь в создании более невероятных и отзывчивых продуктов. Пользователи не будут делиться данными и тренировать ваши алгоритмы, если не увидят в этом пользы. Неважно, принимает пользователь в маркировке ваших данных прямое, косвенное участие или не участвует вовсе — пользовательский опыт стоит превыше всего.
В случае со стартапами это требует совершенно другого уровня дизайнерского мышления. Мало того, что продукт сам по себе должен быть хорошим, участие пользователей в работе машинного обучения, сбора данных и процессе тренировки должно быть захватывающим. Но именно такие задачи и трудности движут творчеством и креативом.
Подписывайтесь на наш канал и рассказывайте о нас друзьям!