Во многих областях исследований поведения животных улучшение нашей способности собирать большие и подробные массивы данных опережает нашу способность их анализировать. Эти разнообразные, сложные и часто высокоразмерные наборы данных демонстрируют нелинейные зависимости и неизвестные взаимодействия по множественным переменным, и могут не соответствовать предположениям многих классических статистических методов.
Область машинного обучения предоставляет методологии, которые идеально подходят для задачи извлечения знаний из этих данных. В недавнем исследовании ученые стремились познакомить специалистов по поведению животных, незнакомых с машинным обучением (ML machine learning), с возможностями этих методов для анализа сложных поведенческих данных. Они начали с описания обоснования ML и рассмотрели ряд исследований поведения животных, в которых ML был успешно применен.
Затем ввели структуру ML с представлением нескольких методов обучения, не требующих наблюдения и контроля. После этого обзора проиллюстрировали основные подходы к изучению ML, разработав аналитические каналы данных для трех различных тематических исследований, которые иллюстрируют типы поведенческих и экологических вопросов, которые может решить ML. В первом используется большое количество спектральных и морфологических характеристик, которые описывают внешний вид фазана, чтобы присвоить их предполагаемым кладкам. Вторая берет непрерывный поток данных о посещениях фидеров из PIT (пассивный интегрированный транспондер), помеченных галочкой.
С появлением более дешевых технологий зондирования и отслеживания становится доступен беспрецедентный объем данных о поведении животных. Ученые считают, что ML сыграет центральную роль в преобразовании этих данных в научные знания и станет полезным дополнением к аналитическому инструментарию специалиста по поведению животных.
Последние технологические достижения означают, что могут быть собраны большие массивы данных о движении, мелкомасштабном движении, социальных взаимодействиях, вокализациях и физиологических реакциях отдельных животных. И наоборот, логистические трудности сбора реплицированных данных, особенно из диких популяций, означают, что размеры выборки невелики, несмотря на то, что данные по каждой особи могут быть богатыми, с учетом многих сотен (или даже тысяч) факторов. Эти сложные наборы данных, полученные из различных источников, таких как изображения и аудиозаписи, могут не соответствовать предположениям многих классических статистических моделей.
Более того, неизвестные нелинейные зависимости и взаимодействия между множественными переменными делают неясным, какой тип функциональных отношений следует использовать для математического описания таких данных. Таким образом, исследователи поведения животных оказываются в таком положении, когда автоматический сбор подробных наборов данных становится обычным делом, но извлечение из них знаний является сложной задачей, главным образом, из-за отсутствия доступных аналитических инструментов.
Машинное обучение (ML) предлагает методы моделирования данных, дополняющие методы классической статистики. В поведении животных подходы ML могут решать и другие трудноразрешимые задачи, такие как классификация видов, особей, вокализаций или поведения в рамках сложных массивов данных. Это позволяет ученым ответить на важные вопросы по целому ряду тем, включая экологию движения, социальную структуру, коллективное поведение, коммуникацию и благосостояние. ML включает в себя набор методологий, которые изучают закономерности в данных, поддающихся прогнозированию.
Машина (алгоритм/модель) повышает свою производительность (точность прогнозирования) при выполнении задачи (например, классификация содержания изображения) на основе опыта (данных). Цель заключается в том, чтобы модель прогнозирования хорошо обобщала, то есть делала точные прогнозы по ранее невидимым данным.
ML может решать широкий спектр задач, включая классификацию наблюдений по заранее определенным наборам, группировку данных по группам, которые разделяют основополагающий процесс и регрессию результата, представляющего интерес, в сравнении с множеством факторов и выяснение их содействующего эффекта. Благодаря своей универсальности ML применялся во многих областях животного поведения для того, чтобы задавать биологически значимые вопросы и впоследствии отвечать на них.
Эти знания затем могут быть использованы для вывода правил принятия индивидуальных решений при коллективном движении и для расчета бюджетов деятельности для индивидуумов без необходимости постоянного человеческого наблюдения или трудоемкого видеоанализа. Это особенно подходит для организмов, которые трудно наблюдать напрямую, таких как ночные (барсуки), пелагические (маленькие пингвины), и водные виды (китовые акулы), или те, за которыми трудно непрерывно следить из-за их скорости или скрытности (гепарды).