Области мозга, которые у людей прошлого были заняты классификацией растений и животных, у нас отданы брендам и автомобилям. Так говорит биология.
Мы с легкостью отличим седан от хетчбэка, но вряд ли знаем названия цветов, которые стоят на подоконнике.
«Цифровой океан» отправился в поля, чтобы помочь сделать «шазам» для растений.
На моем подоконнике зеленеют гибискус, замиокулькас и нефролепис. Да, запомнить их невозможно, и я, конечно, их не помню. Просто пользуюсь искусственным интеллектом iNaturalist — «Шазамом»* для определения растений и животных.
- Любители природы накопили один из самых больших и тщательно размеченных массивов данных на планете.
Десятки миллионов снимков вместе с точными метаданными дают возможность моментально определить вид животного или растения на фотографии. А чтобы сбор информации шел веселей, ученые устраивают для натуралистов соревнования City Nature Challenge (CNC). В них я и решил участвовать. Но сперва нужно войти в курс дела.
*«Шазам» (Shazam) — популярное мобильное приложение, позволяющее идентифицировать музыку по короткому отрывку и определить, что за песня играет в данный момент
ЦИФРОВОЙ ГЕРБАРИЙ
Внешне iNaturalist, один из самых заметных проектов «гражданской науки», выглядит как социальная сеть для любителей природы. Его интерфейс во многом схож с привычными Facebook или «ВКонтакте».
- Новые наблюдения — снимки и метаданные — размещаются в личной ленте, а комментарии позволяют общаться с «френдами» и единомышленниками, немалую долю которых составляют профессиональные биологи, в том числе мирового уровня.
Под этой оболочкой в системе накапливается огромный массив данных: фотографии с точными координатами и датами съемки.
ЛЮБИТЕЛИ ПРИРОДЫ НАКОПИЛИ ОДИН ИЗ САМЫХ БОЛЬШИХ И ТЩАТЕЛЬНО РАЗМЕЧЕННЫХ МАССИВОВ ДАННЫХ НА ПЛАНЕТЕ
«Классический способ сбора такой информации — гербарий. Полная информация о месте, дате и сборщике записывается на этикетке, которая обязательно прилагается к высушенному растению.
Но такая работа требует времени и знаний, и за день специалист вряд ли подготовит больше сотни образцов, — объясняет нам ботаник из МГУ Ксения Дудова. — А вот фотографий на смартфон можно сделать и тысячу, при этом знатоком быть не требуется: внешний вид растения сохранится на снимке, остальная нужная информация — время и место — в метаданных.
Загруженные фотографии можно тут же разместить на карте и оценить распространение животного или растения».
- Эти оцифрованные данные — то, ради чего и существует проект iNaturalist. Они позволяют четко привязать наблюдения разных видов к определенному месту и времени.
«Так можно найти новые точки встреч редких и охраняемых видов, отслеживать вторжения инвазивных организмов, строить модели их распространения, сравнивать нынешние и прошлые ареалы», — добавляет Ксения.
А чтобы дополнительно мотивировать публику к поиску и сбору этой ценной информации, ученые устраивают соревнования.
УРОЖАЙ ДАННЫХ
Крупнейшие из них — ежегодные международные состязания City Nature Challenge (CNC). Их участники стараются сделать как можно больше наблюдений и найти больше видов животных и растений, чем конкуренты из других городов.
Первый «челлендж» CNC прошел в Калифорнии в 2014-м, и с тех пор каждый год, за исключением пандемийного 2020-го, он увеличивает масштаб и охват, сделавшись по-настоящему глобальным. Обычно здесь лидируют жители Лос-Анджелеса и Кейптауна, но движение CNC растет и в России.
В 2021 году соревнования прошли у нас уже в четвертый раз и собрали больше 800 участников-любителей и еще больше профессионалов.
«Сами мы занудствуем, — говорит Ксения Дудова, — снимаем то, что большинство любителей обычно пропускает, замечая лишь броские и крупные цветы.
Но мы можем позволить себе обращать внимание на тонкости, потому что знаем, что информацию по всему „яркому и обычному“ соберут и без нас. А вот с редкими, невзрачными и трудными в определении видами дело обстоит гораздо хуже. Некоторые такие пробелы могут закрыть только специалисты».
В INATURALIST ЗАФИКСИРОВАНО БОЛЬШЕ 80 МИЛЛИОНОВ ВСТРЕЧ С РАСТЕНИЯМИ, ЖИВОТНЫМИ И ГРИБАМИ
Все напоминает спортивное ориентирование, только контрольных пунктов здесь бесконечное количество. Вот и мы сверяемся с картой Новой Москвы, находя точки с наименьшим охватом, садимся в машину и едем на поиски.
Без приключений обойтись не удается: в самом многообещающем месте обнаружился частный пансионат с суровой охраной и четырехметровым забором.
Попытки подъехать с другой стороны привели нас на поле, захваченное растением, узнаваемым без всякого «Шазама»: борщевик Сосновского*.
* Борщевик Сосновского (Heracleum Sosnowskyi) — крупное травянистое растение, при контакте с соком которого на коже могут появляться тяжелые ожоги. Естественный обитатель горных лесов и лугов, в остальных районах является опасным инвазивным видом
РАСПОЗНАВАНИЕ ВИДОВ
База данных «цифрового гербария» не имела бы смысла без точного определения найденного вида, и в первые годы работы платформы iNaturalist с этим были проблемы.
Тогда мой личный опыт оказался не слишком радостным: приложение не подсказало названий ни замиокулькаса, ни гибискуса. Эта задача требовала участия экспертов и занимала слишком долгое время.
- До сих пор на это уходит, по данным iNaturalist, до трех недель, хотя больше половины таких запросов закрываются за два дня. Но, как правило, все происходит моментально и автоматически, не требуя внимания людей.
В самом деле, за годы работы на платформе собран один из крупнейших массивов с «большими данными» в мире.
- На лето 2021 года в iNaturalist зафиксировано больше 80 миллионов встреч с растениями, животными и грибами, видовая принадлежность которых точно определена специалистами.
Эти снимки, сделанные на пестром естественном фоне, под всеми возможными углами, представляют серьезный вызов для искусственного интеллекта и отличный датасет для его обучения.
Недаром Google поддерживает ежегодные «челленджи» CNC и пользуется этими данными для совершенствования средств распознавания изображений.
При поддержке Google в 2017 году собственным искусственным интеллектом обзавелось и само приложение iNaturalist.
- Сотни тысяч любителей природы по всему миру неустанно «подкармливают» ее новыми снимками, позволяя каждый год переобучать нейросеть на основе все более и более внушительного массива данных.
«В 2019–2021 годах под эгидой МГУ на платформе был проведен проект „Флора России“, собравший больше миллиона наблюдений, — добавляет Ксения Дудова. — Благодаря этому искусственный интеллект теперь неплохо распознает даже довольно редкие виды растений Сибири и Дальнего Востока».
Тем временем мы обогнули поле борщевика по ельнику: как заверили наши спутники-эксперты, ядовитое растение держится подальше от такого леса.
А дальше начался луг, полный молодой травы, звенящей от недавно проснувшихся насекомых. Осталось достать смартфон и запустить «Шазам» iNaturalist.
Светит яркое солнце, и камера различает даже отражение медуницы в луже и мать-и-мачеху в тракторной колее.
___________________________
Наш онлайн-портал ➡️ digitalocean.ru
СОЦСЕТИ:
▪️ Instagram: instagram.com/digital.oc
▪️ Facebook: facebook.com/digitalocean.magazine
▪️ Twitter: twitter.com/digitalocean_ru
▪️ Вконтакте: vk.com/digitalocean_ru
▪️ Яндекс.Дзен: bit.ly/digitalocean_magazine