Машинное обучение, как правило, требует множество тренировочных сетов с примерами. Чтобы натренировать AI-модель, позволяющую распознать лошадь, необходимо показать ей тысячи изображений лошадей. В то же время, человеку часто достаточно увидеть лишь несколько примеров предмета, чтобы он мог запомнить его на всю жизнь.
Более того, людям иногда даже не нужны примеры, чтобы что-то распознать. Показав им фотографии лошади и носорога, и сказав, что единорог — это что-то среднее, они могут распознать мифическое существо в книге с картинками при первом же его появлении.
Ученые университета Ватерлоо в Онтарио попытались создать именно такую нейросеть - AI-модель, способную распознавать больше объектов, чем примеров, на которых она тренировалась. Данный процесс обучения получил название “LO-shot”.
Для пробного кейса, исследователи попытались применить технику сжимания огромного датасета в относительно небольшой: взяв 60000 изображений написанных от руки цифр от 0 до 9, ученые умудрились сжать их до всего десяти (на картинке внизу поста).
Фишка метода LO-shot заключалась в создании изображений, в которых смешивались несколько цифр, а самим изображениям присваивались гибридные, «мягкие» лейблы. Например, тройка может выглядеть как цифра 8, но вряд ли будет когда-либо похожа на цифру 7, поэтому вместо того, чтобы сказать модели: "это изображение - цифра 3", ученые говорили: "это изображение – на 60% цифра 3, на 30% цифра 8 и на 10% цифра 0".
После того, как исследователи успешно использовали "мягкие" лейблы для обучения AI-модели на кейсе выше, они начали задаваться вопросом, существует ли теоретическое ограничение на количество категорий, которые модель сможет идентифицировать, обучившись на совсем крошечном количестве примеров?
На удивление, ответ получился отрицательным. С помощью тщательно прописанных мягких лейблов даже два примера теоретически могут кодировать любое количество категорий.
Безусловно, данное новое направление в обучении AI-моделей встречает на своем пути определенные трудности. Например, эффективное применение механизма «сжатия» данных требует огромных изначальных датасетов.
Тем не менее, большинство экспертов полагает, что метод обучения LO-shot радикально сократит требования к данным для построения функционирующей AI-модели. В теории, это может сделать AI более доступным для небольших компаний, а также улучшить конфиденциальность данных, поскольку метод будет требовать гораздо меньше информации при обучении моделей.
Для пытливых умов, желающих вникнуть в детали – оригинал статьи можно прочитать здесь.