Компьютерное зрение – понятие не из теории заговоров, не подглядывание «Большого брата» и уж точно не про восстание машин. Это технология, благодаря которой программы могут распознавать и классифицировать информацию на основе различных изображений или прямо из видеопотока.
Чем компьютерное зрение может быть полезно людям, как оно работает и почему делает образовательный процесс лучше? Поговорили об этом с Юлией Петровой – главным редактором издательства DEVAR, которое специализируется на создании книг с дополненной реальностью.
QR-код – потомок перфокарты
- При наведении камеры гаджета на страницы ваших книг изображения «оживают» в приложении: мультгерои предлагают поиграть, планеты двигаются, динозавры рычат, раскрашенные персонажи становятся объёмными. Как работает технология компьютерного зрения применительно к книгам?
- Для начала надо понять, как работает QR-код. А работает он примерно по тому же принципу, что и перфокарты много лет назад. Через точки и их расположение на карточке компьютер распознавал зашифрованную информацию.
Технология распознавания дополненной реальности (AR) в нашем приложении основывается на тех же принципах: при соблюдении определённых условий любое изображение машина может воспринять как QR-код. То есть как некую оптическую метку, содержащую информацию о том, какую сцену в дополненной реальности необходимо проиграть в данный момент.
Любая картинка видится машине в чёрно-белом цвете. Она распознаёт изображение по точкам, которые формируются при пересечении различных линий, на кончиках острых углов или стыках контрастных элементов. Поэтому наши художники очень внимательно подходят к созданию иллюстраций и даже проверяют их в специальной программе, чтобы удостовериться в том, что машина не «запутается».
Важный нюанс. Чтобы при наведении камеры планшета или смартфона изображение в дополненной реальности не тряслось, нужно хорошее освещение и разглаженная страница книги. Если мы смотрим на картинку в полутёмном помещении, некоторые точки становятся невидимыми, и взаимодействие с дополненной реальностью затрудняется.
То же самое происходит, когда книга очень объёмная или страницы не разглажены – лист искажается, меняются пропорции и расположение точек. Компьютер не понимает, что он видит, и в этом нет ничего удивительного: если человеку дать скомканную страницу и попросить прочитать её – тоже ничего не выйдет. К тому же машина чётко запоминает пропорции при программировании, поэтому если картинку сузить или растянуть, для неё это будет совсем другая история. Поэтому, кстати, мы стараемся печатать на бумаге, которая не бликует: машина воспринимает блики как белые полосы, которые закрывают часть изображения. Когда всё хорошо, компьютерное зрение распознаёт изображение, и запускается дополненная реальность.
Как оживить сердце
- У вас есть раскраски, которые «оживают». Если ребёнок не просто раскрасит их, а нарисует там что-нибудь своё – компьютерное зрение всё равно распознает маркеры или для него это будет сбой системы?
- Сбой системы будет только в том случае, если он, нарисовав своё, закрасил точки маркера.
Например, взял тёмный фломастер и заштриховал контуры. Или раскрасил несколько листиков на картинке тёмным насыщенным цветом, и для компьютерного зрения они слились в одну картинку (помните: машина видит всё монохромно, различая не цвета, а тона?). Но если основная масса точек не тронута, изображение будет прочитано, и дополненная реальность запустится.
Другой пример. Допустим, на раскраске изображён медведь в футболке, и ребёнок нарисовал сердечко внутри футболки. И оно может либо «ожить» в AR, либо нет – зависит от способа, с помощью которого была собрана раскраска. Мы используем оба способа в зависимости от того, на какой возраст рассчитана книга (способен ли ребёнок на детальные рисунки или ещё нет), а также от творческой задачи и эффекта, которого мы хотим добиться в итоге.
В одном случае программа как бы «фотографирует» изображение вместе с узорами, линиями, рисунками и воспроизводит их на 3D-модели. Во втором случае картинку можно раскрасить в несколько цветов, но программа будет брать цвет из небольших областей и растягивать его на всю футболку – и тогда неважно, что на ней нарисовано, программа это сердечко просто закрасит. Но при этом всё будет работать даже в том случае, если мы в ходе раскрашивания закроем часть рисунка или наложим на персонажа, допустим, цветной календарик – тогда персонаж «оживёт» в цветах этого календарика.
Дети очень любят такой фокус: класть руку на раскраску и «оживлять» рисунок в цвет руки. Тут самое главное, чтобы машине было достаточно точек для распознавания, а остальное не так критично.
«У наших художников целый чек-лист того, что нужно соблюдать»
- Использование компьютерного зрения задаёт вам ограничения? Есть какие-то интересные кейсы, когда задумывалось одно, но приходилось что-то менять из-за особенностей технологии?
- Однажды мы готовили к презентации на выставку оживающие карточки. Все были вертикальные, а одна – горизонтальная. Времени было очень мало, и мы выбрали типографию, которая могла напечатать очень быстро. И напечатала. Только там решили, что расположение карточек – ошибка, горизонтальную карточку сжали и превратили в вертикальную. Естественно, эта карточка перестала оживать, потому что программа потеряла точки и не смогла её распознать.
Поэтому мы критически подходим к выбору типографии. Мы всё время обсуждаем с ними, чтобы ничего не меняли при печати. Используем бумагу, которая не очень сильно впитывает краски – ведь тогда теряется контрастность и ухудшается качество распознавания. И если книга толстая, отдельно обсуждается, чтобы она минимально сжималась на сгибе при разворотах: если книга будет очень крепко сшита у корешка, её будет сложно раскрыть и «оживить». А если мы «оживляем» обложку, то просим сделать специальное матовое ламинирование, чтобы она не бликовала.
- Из каких специфических этапов складывается работа над «оживающей» книгой?
- Художник рисует картинку. Мы её проверяем: смотрим, как программа видит эти точки. Затем правим рисунок под компьютерное зрение – распределяем точки равномерно по картинке. Кроме того, мы следим, чтобы на рисунке не было повторяющихся элементов. Нам приходится избегать симметрии. От неё компьютерное зрение даёт промахи, потому что не понимает, где лево, где право, пытается всё перевернуть, и в дополненной реальности модель начинает дрожать.
Много сложностей у нас возникло, например, с книгой «Анатомия. 4D энциклопедия в дополненной реальности». В блоке про тело человека мы рассказываем про разные структуры – там представлены скелет, кровеносные сосуды, лимфатические узлы, мышцы. Но для программы это был один и тот же человек, который стоит в анфас. Одинаковый по пропорциям, потому что модель человека одна и та же. И программа просто сходила с ума: мало того, что он симметричный, так ещё и без существенных отличий! Она показывала лимфатические узлы на кровеносной системе и запускала модели, как ей хотелось.
Поэтому у наших художников есть целый чек-лист, что нужно соблюдать. Если в обычных книжках можно накопировать кучу нарисованных листьев, камней или цветов и просто вставлять их как элементы фона на всех страницах, у нас такое не пройдёт.
Как же быть, если нам нужен повторяющийся элемент? Например, в энциклопедии «Динозавры. 4D энциклопедия в дополненной реальности» мы решили, что в левом верхнем углу страниц у нас будет «досье» на камне – когда жил, что ел и так далее. Так вот: эти камни похожие, но везде разные.
Детективное расследование – как часть работы
- Книги DEVAR представлены в разных странах. Партнёры тоже сталкиваются с этими нюансами при переиздании книг на международном рынке?
- При покупке проекта партнёр получает исходные макеты, чтобы он сам мог напечатать книгу. И вот тут, порой, возможны неожиданности.
Текст переводится – и какой-нибудь элемент изображения решили подвинуть. Или покрасили здание в другой цвет, поменяв тон. Или развернули-отзеркалили персонажа. Через какое-то время нам в панике пишут-звонят, что ничего не работает. И мы начинаем детективное расследование.
Начинаем проверять у себя – у нас работает. Что же не так? Изучаем, не случилось ли что-нибудь с серверами страны партнёра. Запрашиваем макеты и сравниваем их, буквально играем в «Найди пять отличий».
Надо понимать, что в разных странах свои форматы бумаги, далеко не всегда это стандартные А4, и типография может пропорционально расширить или сузить макет при печати.
У нас была история, когда типография не знала об особенностях книги и сдвинула макет партнёра на 2 миллиметра, и нам пришлось догадываться об этом. Для человеческого глаза это ничто. Но не для дополненной реальности, а тем более – раскрасок. Допустим, есть у нас некий утёнок для раскрашивания, и его по каким-то причинам сдвинули на два миллиметра. А программа помнит, что он должен быть ниже, и оживит его так, что у него над головой будет два миллиметра фона, поскольку область раскрашивания сдвигается вместе с ним.
Похожая история у нас была с книгами «Мой маленький пони». Обладатель лицензии в той стране при согласовании попросил заменить позу персонажа у нашего партнёра. И, конечно, оживление сломалось.
- И что вы делаете?
- Придумываем способ, как помочь партнёру. Делаем новые маркеры или особенную сборку для страны партнёра, где неработающая страница будет заменена. Либо чиним что-то специально для него. Это чрезвычайно неудобно и трудоёмко, но альтернативы нет: если мы сдвинем это в нашей программе, перекос пойдёт во всех других странах.
Как AR помогает людям
- В самом начале разговора упоминались обложки, оживающие в AR. Как работает эта технология и для чего это нужно?
- Это та же технология распознавания, только обложка оживает не через наше приложение, а через браузер – благодаря нашему сервису MyWebAR.
Почему мы решили оживлять обложки? К каждому фильму есть трейлер: мы видим их в кинотеатрах, в рекламе, в интернете. У книжек обычно нет трейлеров, поскольку нет материала, который можно достаточно динамично визуализировать. При этом людям проще воспринимать именно аудиально-визуальный образ, и оживающая обложка – как раз трейлер книги. Мы не упираемся в её ценности – подержать в руках и почитать, - но можем сделать эпичное видео благодаря AR и заинтересовать этим ещё больше людей, особенно детей.
- Можно ли прогнозировать широкое распространение этой технологии?
- По большому счёту, все маски, которые мы используем в Инстаграме или Снапчате, это дополненная реальность. Многие считают их какими-то фильтрами, но на практике это тоже технология распознавания: просто в программу заложено очень много пропорций разных лиц, которые она запомнила, а дальше она распознаёт лицо человека и надевает на него маску. То есть видит некие точки, на которые цепляет изображение. Таким образом можно было «нанести» косметику в Sephora, воспользоваться оживающим меню в некоторых ресторанах, измерить расстояние при помощи телефона и камеры в приложении «Рулетка».
- А применительно к книгам какие есть возможности?
- Было бы здорово, если бы появились оживающие учебники, так как это повлияло бы на качество образования.
Возьмём те же объёмные фигуры на геометрии: одно дело, когда тебе объясняют, что квадрат плоский, а куб объёмный (и показывают две плоские картинки), и совсем другое – когда ты их видишь в моделях. Главное правило изучения любого материала – заинтересованность в нём. А дальше уже можно самостоятельно углублять свои знания и перейти от детских учебников ко взрослым тематическим изданиям, в которых важна наглядность – космос, микромир, медицина.
Кстати, есть сериал «Хороший доктор», и в одной серии герои активно используют технологию компьютерного зрения для моделирования операции, которая помогает спасти ребёнка. Они подготовили 3D-модель сердца, обучили программу и делали виртуальную операцию, рассматривая различные варианты развития событий, чтобы быть готовыми. Ведь виртуально можно в случае неудачного исхода «перезапустить» модель, и никто не пострадает. И это не просто про перебрать разные варианты, а про прочувствовать.
В сериале это выглядит как фантазия, но если в будущем удастся достичь подобного, представляете, какие возможности откроются?
- То есть сейчас идёт крен в сторону полезности, а не развлекательности AR?
- Технологии развиваются нереально быстро – оставленный дома телефон сегодня трагедия, ведь в нём всё: контакты, инструменты для работы, камера, заметки, источники информации, развлечение. Но выбор пути развития всегда зависит от людей: что угодно можно использовать как во благо, так и во вред. Надеюсь, мы выберем то, что принесёт пользу и сделает нашу жизнь ещё лучше.
Ну а мы в DEVAR продолжим удивлять наших маленьких читателей, вдохновляя их на исследование нашего огромного и невероятно интересного мира.