Найти в Дзене
ТехноВзгляд

Искусственный интеллект наконец-то позволит нам общаться с животными

ИИ способен произвести революцию в нашем понимании общения с животными

Под густым пологом леса на отдаленном острове в южной части Тихого океана новокаледонская ворона смотрит со своего насеста, поблескивая темными глазами. Птица аккуратно снимает ветку, обрывает ненужные листья и делает из дерева крючок. Ворона - перфекционист: если она допустит ошибку, то отбросит все и начнет сначала. Удовлетворившись, птица просовывает готовое приспособление в расщелину дерева и вылавливает оттуда извивающуюся воблу.

Новокаледонская ворона - одна из единственных известных птиц, способных изготавливать орудия труда, что раньше считалось уникальным для человека. Кристиан Рутц, поведенческий эколог из Сент-Эндрюсского университета (Шотландия), посвятил большую часть своей карьеры изучению возможностей вороны. Поразительная изобретательность, которую наблюдал Рутц, изменила его представление о том, на что способны птицы. Он начал задумываться о том, что, возможно, существуют и другие, не замеченные ранее способности животных. Вороны живут в сложных социальных группах и могут передавать потомству технику изготовления инструментов. Эксперименты также показали, что различные группы ворон, обитающие на острове, имеют отличительные вокальные данные. Рутц хотел выяснить, могут ли эти диалекты помочь объяснить культурные различия в изготовлении орудий труда между группами.

Новые технологии, основанные на искусственном интеллекте, способны дать именно такие знания. Вопрос о том, общаются ли животные друг с другом в понятных нам терминах, вызывает неизменное восхищение. Хотя представители многих коренных народов издавна верят в то, что животные могут намеренно общаться, западные ученые традиционно сторонятся исследований, стирающих границы между человеком и другими животными, опасаясь обвинений в антропоморфизме. Но благодаря последним достижениям в области искусственного интеллекта "люди осознают, что мы стоим на пороге довольно серьезных достижений в понимании коммуникативного поведения животных", - говорит Рутц.

По словам Азы Раскин, одной из основательниц некоммерческой организации Earth Species Project, помимо создания чат-ботов, которые завлекают людей, и создания произведений искусства, побеждающих на конкурсах изобразительного искусства, машинное обучение может вскоре позволить расшифровывать такие вещи, как крики ворон. Ее команда, состоящая из ученых, занимающихся искусственным интеллектом, биологов и специалистов по охране природы, собирает широкий спектр данных по различным видам животных и создает модели машинного обучения для их анализа. Другие группы, такие как Project Cetacean Translation Initiative (CETI), сосредоточены на попытках понять конкретный вид, в данном случае кашалота.

Расшифровка вокализации животных может помочь в сохранении и защите природы. Это также может оказать поразительное влияние на нас самих. Раскин сравнивает грядущую революцию с изобретением телескопа.

"Мы посмотрели на Вселенную и обнаружили, что Земля не является ее центром", - говорит он.

По его мнению, способность искусственного интеллекта изменить наше представление о животных будет иметь аналогичный эффект.

"Эти инструменты изменят наше представление о том, как мы относимся ко всему сущему".

Когда Шейн Геро сошел со своего исследовательского судна в Доминике после недавнего дня полевых работ, он был взволнован. Кашалоты, которых он изучает, имеют сложные социальные группы, и в этот день один знакомый молодой самец вернулся к своей семье, предоставив Геро и его коллегам возможность записать вокальные сигналы группы, когда они воссоединялись.

В течение почти 20 лет Геро, ученый из Карлтонского университета в Оттаве, вел подробные записи двух кланов кашалотов в бирюзовых водах Карибского моря, фиксируя их щелкающие вокальные сигналы и то, что животные делали в момент их произнесения. Он обнаружил, что для идентификации друг друга киты, по-видимому, используют особые звуковые паттерны, называемые кодами. Они узнают эти коды примерно так же, как малыши узнают слова и имена, повторяя звуки, которые издают окружающие их взрослые.

Расшифровав несколько таких кодов вручную, Геро и его коллеги задумались о том, можно ли использовать искусственный интеллект для ускорения перевода. В качестве эксперимента команда направила несколько записей Геро в нейронную сеть - алгоритм, который обучается навыкам, анализируя данные. Она смогла правильно определить небольшое подмножество отдельных китов по кодам в 99% случаев. Далее команда поставила перед собой новую амбициозную цель: прослушать большие участки океана в надежде обучить компьютер говорить на китовом языке. В рамках проекта CETI, ведущим биологом которого является Джеро, планируется установить подводный микрофон, прикрепленный к бую, для круглосуточной записи вокализации китов-резидентов Доминики.

По мере удешевления датчиков и совершенствования технологий, таких как гидрофоны, биолокаторы и беспилотные летательные аппараты, объем данных о животных резко возрос. Биологам стало не под силу эффективно просеивать информацию вручную. Однако ИИ прекрасно справляется с огромными объемами информации. Большие языковые модели, такие как ChatGPT, должны поглощать огромные объемы текста, чтобы научиться отвечать на запросы: ChatGPT-3 была обучена примерно на 45 терабайтах текстовых данных, что составляет значительную часть всей Библиотеки Конгресса США. Ранние модели требовали от человека классифицировать большую часть этих данных с помощью меток. Другими словами, люди должны были научить машины тому, что является важным. Но следующее поколение моделей научилось "самоконтролю", автоматически узнавая, что является важным, и самостоятельно создавая алгоритм предсказания того, какие слова идут следующими в последовательности.

В 2017 году две исследовательские группы обнаружили способ перевода между человеческими языками без использования Розеттского камня. Открытие было связано с преобразованием семантических отношений между словами в геометрические. Теперь модели машинного обучения способны переводить между неизвестными человеческими языками, ориентируясь на их форму - например, используя частоту появления рядом таких слов, как "мать" и "дочь", чтобы точно предсказать, что будет дальше.

"Существует скрытая базовая структура, которая, похоже, объединяет всех нас", - говорит Раскин.
"Открылась возможность использовать машинное обучение для декодирования языков, которые мы еще не знаем, как декодировать".

В 2020 году в этой области был достигнут еще один рубеж, когда естественно-языковая обработка стала "рассматривать все как язык", - поясняет Раскин. Возьмем, к примеру, DALL-E 2 - одну из систем искусственного интеллекта, способную генерировать реалистичные изображения на основе словесных описаний. Она с поразительной точностью сопоставляет фигуры, представляющие текст, с фигурами, представляющими изображения, - именно такой "мультимодальный" анализ, вероятно, потребуется для перевода общения животных.

Многие животные используют различные способы коммуникации одновременно, так же как люди используют язык тела и жесты во время разговора. Любые действия, совершаемые непосредственно перед, во время или после произнесения звуков, могут служить важным контекстом для понимания того, что животное пытается передать. Традиционно исследователи каталогизируют эти действия в виде списка, называемого этограммой. При правильном обучении модели машинного обучения могут помочь разобрать эти поведенческие особенности и, возможно, обнаружить новые закономерности в данных. Например, в прошлом году в журнале Nature Communications ученые сообщили, что модель обнаружила ранее не распознанные различия в песнях зебровых вьюрков, на которые самки обращают внимание при выборе партнера. Самки предпочитают партнеров, которые поют так же, как птицы, с которыми самки выросли.

Один из видов анализа на основе ИИ уже можно использовать в бесплатном приложении Merlin, разработанном Корнельской орнитологической лабораторией и позволяющем определять виды птиц. Чтобы определить птицу по звуку, Merlin берет запись пользователя и преобразует ее в спектрограмму - визуализацию громкости, высоты тона и длины птичьего позыва. Модель обучается на аудиотеке Корнелла, с которой она сравнивает запись пользователя, чтобы предсказать видовую принадлежность. Затем модель сравнивает это предположение с eBird, глобальной базой данных наблюдений Корнелла, чтобы убедиться, что это тот вид, который можно ожидать встретить в данном месте. Merlin может с поразительной точностью идентифицировать позывы более чем 1000 видов птиц.

Но мир шумит, и выделить из всей этой какофонии мелодию одной птицы или кита очень сложно. Проблема выделения и распознавания отдельных звуков, известная как "проблема вечеринки с коктейлями", уже давно не дает покоя специалистам по обработке вокальных сигналов животных. В 2021 г. в рамках проекта Earth Species Project была создана нейронная сеть, способная разделять перекрывающиеся звуки животных на отдельные треки и отфильтровывать фоновые шумы, такие как гудки автомобилей, и выпустила ее код с открытым исходным кодом бесплатно. Для этого создается визуальное представление звука, по которому нейронная сеть определяет, какой пиксель издается тем или иным диктором. Кроме того, в рамках проекта Earth Species Project недавно была разработана так называемая фундаментальная модель, позволяющая автоматически обнаруживать и классифицировать закономерности в массивах данных.

Эти инструменты не только преобразуют научные исследования, но и имеют практическую ценность. Если ученые смогут переводить звуки, издаваемые животными, они, возможно, смогут помочь исчезающим видам. Гавайская ворона, известная на местном уровне как 'Alalā, вымерла в дикой природе в начале 2000-х годов. Последние птицы были выращены в неволе, чтобы начать программу их размножения. Продолжая свою работу с новокаледонским вороном, Рутц сотрудничает с проектом Earth Species Project в изучении словарного запаса гавайского ворона.

"Этот вид очень долгое время был оторван от своей естественной среды обитания", - говорит он.

В настоящее время он составляет перечень всех позывных, используемых птицами в неволе. Он сравнит их с историческими записями последних диких гавайских ворон, чтобы определить, изменился ли их репертуар в неволе. Он хочет узнать, не утратили ли они важные позывки, например, позывки, связанные с хищниками или ухаживанием, что может объяснить, почему восстановление популяции ворон в дикой природе оказалось столь трудным.

Модели машинного обучения могут когда-нибудь помочь и нам разобраться в наших домашних питомцах. Долгое время специалисты по поведению животных не уделяли особого внимания домашним питомцам, говорит Кон Слободчикофф, автор книги "В погоне за доктором Долиттлом: Learning the Language of Animals. Когда он начал изучать собак прерий, то быстро оценил их сложные позывы, которые могут описывать размеры и форму хищников. Этот опыт помог ему в дальнейшем работать консультантом по поведению собак, ведущих себя плохо. Он обнаружил, что многие из его клиентов совершенно не понимают, что пытается передать их собака. Когда наши питомцы пытаются общаться с нами, они часто используют мультимодальные сигналы, например, лай в сочетании с позой тела.

"Мы настолько зациклены на том, что звук - это единственный правильный элемент общения, что упускаем из виду многие другие сигналы", - говорит он.

Сейчас Слободчиков разрабатывает модель искусственного интеллекта, которая будет переводить мимику и лай собаки для ее хозяина. Он не сомневается, что по мере распространения исследований на домашних животных достижения в области машинного обучения откроют удивительные возможности домашних питомцев.

"У животных есть свои мысли, надежды, возможно, мечты", - говорит он.

Подобное глубокое понимание может быть полезно и для сельскохозяйственных животных. Элоди Ф. Брифер, доцент кафедры поведения животных Копенгагенского университета, показала, что можно оценивать эмоциональное состояние животных по их вокализации. Недавно она создала алгоритм, обученный на тысячах звуков, издаваемых свиньями, который с помощью машинного обучения предсказывает, испытывают ли животные положительные или отрицательные эмоции. По словам Брифер, более глубокое понимание того, как животные испытывают чувства, может подтолкнуть усилия по улучшению их благополучия.

Но как бы хороши ни были языковые модели в поиске закономерностей, на самом деле они не могут расшифровать смысл и, конечно, не всегда правы. Даже эксперты в области ИИ часто не понимают, как алгоритмы приходят к своим выводам, что затрудняет их проверку. Бенджамин Хоффман, который помогал разрабатывать приложение Merlin до того, как присоединился к проекту Earth Species Project, говорит, что одна из самых больших проблем, с которой сейчас сталкиваются ученые, заключается в том, чтобы понять, как учиться на том, что обнаруживают эти модели.

"Выбор, сделанный на стороне машинного обучения, влияет на то, какие научные вопросы мы можем задавать", - говорит Хоффман.

Merlin Sound ID, как он объясняет, может помочь определить, какие птицы присутствуют, что полезно для экологических исследований. Однако он не может помочь ответить на вопросы о поведении, например, о том, какие звуки издает та или иная птица при взаимодействии с потенциальной парой. По словам Хоффмана, пытаясь интерпретировать различные виды общения животных, исследователи должны также "понять, что делает компьютер, когда учится делать это".

Даниэла Рус, директор лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института, откинулась в кресле в своем кабинете, окруженном книгами и стопками бумаг. Она с нетерпением ждет новых возможностей для изучения общения животных, которые открыло машинное обучение. Ранее Рус разрабатывала дистанционно управляемых роботов для сбора данных при изучении поведения китов в сотрудничестве с биологом Роджером Пейном, чьи записи песен горбатых китов в 1970-х годах способствовали популяризации движения "Спасите китов". Теперь Рус привносит свой опыт программирования в проект CETI. Датчики для подводного мониторинга стремительно развиваются, предоставляя оборудование, необходимое для фиксации звуков и поведения животных. Значительно улучшились и модели искусственного интеллекта, способные анализировать эти данные. Однако до недавнего времени эти две дисциплины не были объединены.

В проекте CETI первой задачей Руса было выделение щелчков кашалотов из фонового шума океанского царства. Вокальные звуки кашалотов давно сравнивают с двоичным кодом по способу представления информации. Однако они более сложны. После проведения точных акустических измерений Рус использовала машинное обучение для анализа того, как эти щелчки объединяются в коды, в поисках закономерностей и последовательностей.

"Как только у вас появится эта базовая способность, - говорит она, - мы сможем приступить к изучению основополагающих компонентов языка".

По словам Руса, команда будет решать этот вопрос напрямую, "анализируя, обладает ли лексикон [кашалота] свойствами языка или нет".

Однако понимание структуры языка не является обязательным условием для того, чтобы на нем говорить - во всяком случае, теперь. Теперь ИИ может взять три секунды человеческой речи, а затем долго говорить, точно подражая ей, с теми же шаблонами и интонациями. В ближайшие год-два, по прогнозам Раскина, "мы сможем создать такую же систему для общения с животными". В рамках проекта Earth Species Project уже разрабатываются модели ИИ, имитирующие различные виды животных, с целью проведения "бесед" с ними. По его словам, двусторонняя связь значительно упростит для исследователей задачу определения смысла вокализации животных.

В сотрудничестве со сторонними биологами проект "Виды Земли" планирует провести эксперименты по воспроизведению искусственно сгенерированного сигнала, который будет воспроизводиться в лабораторных условиях для зебровых финнов, а затем наблюдать за реакцией птиц.

Вскоре "мы сможем пройти тест Тьюринга для зяблика, вороны или кита", - утверждает Раскин, имея в виду тот момент, когда животные не смогут определить, что они разговаривают с машиной, а не с кем-то из своих.
"Сюжетный поворот заключается в том, что мы сможем общаться раньше, чем понимать".

Перспектива такого достижения вызывает этические опасения. Карен Баккер, исследователь цифровых инноваций и автор книги "Звуки жизни: как цифровые технологии приближают нас к миру животных и растений", объясняет, что могут возникнуть непредвиденные последствия. Коммерческие предприятия могут использовать ИИ для точного лова рыбы, прослушивая косяки целевых видов или их хищников; браконьеры могут использовать эти технологии для обнаружения исчезающих животных и выдавать себя за них, чтобы приманить их поближе. Для таких животных, как горбатые киты, чьи загадочные песни могут распространяться через океаны с поразительной скоростью, создание синтетической песни может, по словам Баккера, "стать вирусным мемом для населения планеты" с неизвестными социальными последствиями.

Пока на переднем крае этой работы, связанной с коммуникацией животных, находятся такие некоммерческие организации, как Earth Species Project, которые стремятся к открытому обмену данными и моделями и в которых работают ученые-энтузиасты, движимые страстью к изучаемым ими животным. Однако эта область может и не остаться в таком виде, поскольку коммерческие игроки могут злоупотребить этой технологией. В своей недавней статье в журнале Science Рутц и его соавторы отмечают, что срочно необходимы "руководства по лучшей практике и соответствующая законодательная база".

"Недостаточно просто создать технологию", - предупреждает Раскин.
"Каждый раз, когда вы изобретаете технологию, вы также изобретаете и ответственность".

Создать "китовый чатбот", к чему стремится проект CETI, не так просто, как выяснить, как воспроизвести щелчки и свист кашалотов; для этого необходимо представить себе опыт животного. Несмотря на значительные физические различия, человек имеет много общих с другими животными форм общения. Рассмотрим взаимодействие между родителями и потомством. Например, крики младенцев млекопитающих могут быть невероятно похожими, вплоть до того, что белохвостый олень будет реагировать на хныканье независимо от того, кто его издает - сурок, человек или тюлень. Вокальная экспрессия у разных видов также может развиваться сходным образом. Как и человеческие детеныши, детеныши морских котиков учатся менять тональность голоса, чтобы попасть в барабанные перепонки родителей. И певчие птицы, и человеческие малыши занимаются лепетом - "сложной последовательностью слогов, выученных у наставника", - объясняет Джонатан Фритц, научный сотрудник Инициативы по изучению мозга и поведения в Университете Мэриленда (University of Maryland's Brain and Behavior Initiative).

Однако вопрос о том, сопоставимы ли высказывания животных с человеческим языком с точки зрения того, что они передают, остается предметом глубоких разногласий.

"Некоторые утверждают, что язык, по сути, определяется в терминах, которые делают человека единственным животным, способным к языку, - говорит Баккер, - с правилами грамматики и синтаксиса.

Скептики опасаются, что если рассматривать общение животных как язык или пытаться перевести его, то это может исказить его смысл.

Раскин отмахивается от этих опасений. Он сомневается, что животные говорят "передай мне банан", но полагает, что мы обнаружим какую-то основу для общения в общем опыте. Я не удивлюсь, если мы обнаружим [выражения, обозначающие] "горе", "мать" или "голодный" у разных видов, - говорит он. В конце концов, ископаемые свидетельствуют о том, что такие существа, как киты, издавали вокальные звуки на протяжении десятков миллионов лет.

"Чтобы что-то могло существовать долгое время, оно должно кодировать что-то очень глубокое и истинное".

В конечном итоге для реального перевода могут потребоваться не только новые инструменты, но и способность видеть дальше наших собственных предубеждений и ожиданий. В прошлом году, когда за моим домом отступила снежная корка, пара журавлей-красавок начала преследовать заросли. Началось ухаживание, самец ухаживал и прихорашивался. Вскоре каждое утро одна птица улетала на кормежку, а другая оставалась ухаживать за яйцами. Мы с птицами вошли в привычный ритм: когда солнце взошло на холм, я не сводил глаз с окна, считая дни, представляя, как делятся клетки, как в теплой околоплодной темноте формируются новые крылья.

А однажды утром все закончилось. Где-то за домом завыли птицы, сплетая свои голоса в пронзительный крик, и вдруг я увидел, как они обе бегут вниз с холма в заикающемся начале полета. Они сделали один круг и исчезли. Я ждал несколько дней, но так и не увидел их больше.

Размышляя о том, оплакивают ли они неудавшееся гнездо или я слишком многого не понимаю в их поведении, я связался с Джорджем Хаппом и Кристи Юнкером, учеными-пенсионерами, которые в течение двух десятилетий делили свой пруд на Аляске с парой диких журавлей-песочников, прозванных ими Милли и Рой. Они заверили меня, что тоже видели, как птицы реагируют на смерть. После смерти одного из жеребят Милли и Роя Рой стал подбирать травинки и бросать их рядом с телом своего потомка. Вечером, когда солнце опустилось к горизонту, семья начала танцевать. Оставшийся в живых жеребенок присоединился к своим родителям, и они закружились и запрыгали, задрав к небу длинные шеи.

Хапп знает, что критики могут не согласиться с тем, что они объясняют поведение птиц горем, считая, что "мы не можем точно определить физиологические корреляты, лежащие в их основе". Но, как он пишет, основываясь на результатах тщательных наблюдений за журавлиной парой в течение десяти лет, интерпретация этих поразительных реакций как лишенных эмоций "идет вразрез с фактами".

Каждый человек в конечном итоге может испытать боль от потери близкого человека. Этот момент как нельзя лучше подходит для перевода.

Возможно, истинная ценность любого языка заключается в том, что он помогает нам общаться с другими людьми и тем самым освобождает нас от пут собственного разума. Каждую весну, когда над домом Юнкера и Хаппа вновь загорался свет, они ждали возвращения Милли и Роя. В 2017 году они ждали напрасно. Другие журавли соперничали за территорию. Ученые скучали, наблюдая за вылуплением и ростом жеребят. Но прошлым летом новая журавлиная пара построила гнездо. Вскоре их жеребята выглянули из высокой травы, стали просить еду и учиться танцевать. Жизнь начала новый цикл.

"Мы всегда смотрим на природу, - говорит Юнкер, - а на самом деле являемся ее частью".