482 подписчика

60 лет учёные слушали дельфинов и ничего не слышали. Пока ИИ не показал им структуру - и это пока не перевод, а начало

3 дня назад3 дня назад

11 мин

Разумеется, речь идёт не о человеческом языке, а о сложной системе сигналов, устройство которой учёные только начинают выявлять с помощью искусственного интеллекта.

Учёные не расшифровывают язык животных. Они учатся измерять структуру их сигналов так, как раньше не позволяли вычислительные методы. Это принципиально отличается от перевода: сначала нужно доказать, что в сигнале вообще существует

Оглавление

Что такое DolphinGemma и как она работает
Почему DolphinGemma не "понимает" речь
Почему дельфины - одни из немногих, кто проходит зеркальный тест?

Более шестидесяти лет исследователи прислушиваются к дельфинам. Записывают их щелчки, систематизируют свисты. Заполняют жёсткие диски тысячами часов звуков, предполагая, что за ними скрывается система, но не в силах её разгадать. Эти последовательности слишком быстрые, слишком плотные и слишком чуждые человеческому уху.

Что такое DolphinGemma и как она работает

14 апреля 2025 года Google объявила о работе над DolphinGemma - моделью, которая анализирует акустические последовательности и моделирует статистические зависимости между сигналами. Это одна из первых крупных генеративных моделей, созданных для анализа звуковых сигналов другого вида. По заявлению компании, она построена на основе лёгкой открытой архитектуры Gemma и использует технологию SoundStream для преобразования звуков дельфинов в дискретные последовательности - токены.

Важно: дельфины используют один акустический канал для трёх разных задач: навигации (эхолокация), коммуникации и социального поведения. Модель работает со всеми этими сигналами, но не различает, где сигнал используется в коммуникации, а где относится к эхолокации. Отделить навигационные звуки от коммуникативных - отдельная задача, которую ИИ пока не решает.

Модель работает как аудио-в-аудио: она обрабатывает естественные звуки дельфинов, выявляет структуру и прогнозирует вероятностное продолжение звуковых последовательностей в рамках статистических закономерностей обучающего датасета - подобно тому, как языковые модели предсказывают следующее слово в предложении.

Новая модель не ищет скрытых значений напрямую, а выявляет статистические связи между звуками, действуя подобно тому, как текстовые алгоритмы предсказывают следующее слово, и этот подход позволяет заметить то, что прежде ускользало от внимания.

Почему DolphinGemma не "понимает" речь

Важно понимать разницу: DolphinGemma не "понимает" речь, как человек. Она работает как статистический анализатор звуковых последовательностей. Она не переводит сообщения. Она выявляет повторяющиеся статистические зависимости между сигналами, которые затем можно сопоставлять с поведением животных. Выявление таких зависимостей практически невозможно выполнить вручную на подобных объёмах данных. Иными словами, ИИ в биоакустике работает как инструмент выявления статистических закономерностей, а не как интерпретатор смысла.

Как отмечает основатель Wild Dolphin Project (WDP) Дениз Херзинг, без ИИ на выявление подобных закономерностей ушли бы десятилетия кропотливой работы.

Эти разработки вновь ставят один из фундаментальных вопросов. Действительно ли человек - единственный вид на планете, обладающий столь сложной системой общения?

Почему дельфины - одни из немногих, кто проходит зеркальный тест?

Чтобы понять, почему исследователи вообще пытаются анализировать акустическую коммуникацию дельфинов настолько подробно, стоит посмотреть, насколько необычны их когнитивные способности.

Большинству кажется, что они и так всё знают о дельфинах. Милые, игривые, достаточно сообразительные, чтобы прыгать сквозь обруч в дельфинарии. Но этот образ из тематических парков - упрощённая версия существа, чьи когнитивные способности настолько развиты, что учёные десятилетиями спорят о необходимости выделить их в отдельную категорию.

Зеркальный тест

В контролируемых лабораторных условиях дельфины демонстрируют поведение, обычно интерпретируемое как визуальное самораспознавание. Зеркальный тест на самосознание, разработанный в 1970 году психологом Гордоном Гэллапом-младшим (Gordon G. Gallup Jr.), считается одним из самых известных экспериментальных подходов к оценке самопознания у животных. Лишь считанные виды когда-либо проходили это испытание: человекообразные обезьяны, слоны, сороки и дельфины. Однако интерпретация зеркального теста остаётся дискуссионной - он измеряет визуальное самораспознавание, а не "самосознание вообще".

Способность узнавать себя в отражении и использовать уникальные свисты-автографы, которые сохраняются десятилетиями, ставит этих морских обитателей в один ряд с немногими видами, чьи когнитивные возможности выходят далеко за рамки привычного.

Способность узнавать себя в отражении и использовать уникальные свисты-автографы, которые сохраняются десятилетиями, ставит этих морских обитателей в один ряд с немногими видами, чьи когнитивные возможности выходят далеко за рамки привычного.

Понимание порядка символов

В экспериментах с искусственными командами дельфины демонстрируют способность учитывать порядок элементов, различая, например, "принеси мяч к обручу" и "принеси обруч к мячу". Они также способны к метапознанию - подают сигнал, когда не знают ответа, что может свидетельствовать об осознании собственной неуверенности.

Дельфины обладают очень высоким коэффициентом энцефализации - одним из самых высоких в животном мире (у человека он всё же выше). Их мозг имеет глубокие складки неокортекса и высокоразвитую лимбическую систему. Эти особенности сами по себе не доказывают высокий интеллект, однако соответствуют сложному социальному поведению и высоким когнитивным способностям, наблюдаемым в экспериментах.

Есть ли у дельфинов имена?

В 1960-х годах исследователи предположили, что каждая афалина вырабатывает уникальный звук - свист-автограф, который служит индивидуальным акустическим маркером. Не унаследованный, не скопированный у родителей, а изобретённый. В первые месяцы жизни каждый дельфинёнок создаёт уникальный звуковой сигнал, который служит его идентификатором до конца жизни. Условно этот сигнал можно назвать функциональным аналогом индивидуального имени - но это именно аналогия, а не утверждение о наличии человеческого языка.

Долговременное узнавание сигнатур

Исследования показывают, что дельфины воспроизводят сигнатуры других особей. В исследовании более 250 диких дельфинов в заливе Сарасота было обнаружено: оказавшись в разлуке, они копируют фирменный свист той особи, которую хотят найти. Когда этот дельфин слышит свой сигнал, он откликается. Не на незнакомый свист, не на случайные звуки - только на собственный идентификатор, если его издаёт кто-то знакомый.

Исследование, опубликованное в 2013 году в Proceedings of the Royal Society B, показало, что, слыша чужой фирменный свист, дельфин не просто узнаёт звук. Поведение животных свидетельствует, что они связывают фирменный свист с конкретной особью, а не только с самим звуком. Согласно данным того же исследования, дельфины способны узнавать такие идентификаторы спустя до 20 лет без непосредственного контакта.

Как ИИ ускоряет анализ данных

Сигнатурные свисты - лишь одна часть головоломки. Помимо них, существуют тысячи других звуковых сигналов: ритмичные щелчки, импульсные серии, различающиеся по ритму и интенсивности, и свисты, которые не являются идентификаторами, но, по-видимому, несут в себе смысл.

Десятилетиями учёные не могли обрабатывать эти данные достаточно быстро. Всего несколько минут записи могли потребовать долгих часов ручного разбора. Звуковые структуры были слишком плотными, быстрыми и недоступными для человеческого восприятия.

Именно тогда на помощь пришёл искусственный интеллект. DolphinGemma, разработанная Google совместно с Технологическим институтом Джорджии и Wild Dolphin Project (WDP), представляет собой модель с примерно 400 миллионами параметров, оптимизированную для работы прямо на смартфонах Pixel. Она обучена на акустическом архиве проекта Wild Dolphin Project (WDP) - десятках тысяч часов записей диких атлантических пятнистых дельфинов, которые доктор Дениз Херзинг и её команда собирали на Багамах на протяжении почти 40 лет.

DolphinGemma помогает выявлять в этих данных устойчивые статистические закономерности, которые практически невозможно обнаружить вручную.

Как создать общий интерфейс с другим видом

Конечная цель проекта - не просто перевод, а создание предпосылок для будущего взаимодействия. Команда разработала носимое подводное устройство под названием CHAT (Cetacean Hearing Augmentation Telemetry - "Система телеметрии с усилением слуха для китообразных").

Дайвер в таком снаряжении воспроизводит заранее запрограммированные синтетические свисты, отличающиеся от естественных сигналов дельфинов. Это специально созданные условные сигналы для обозначения предметов, интересных животным.

Два ныряльщика плывут рядом с дельфином, используют звук, чтобы попросить предмет, и передают его друг другу. Если дельфин имитирует звук и получает в награду этот предмет, начинает формироваться система согласованных реакций.

Исследователи не навязывают дельфинам человеческий язык, а строят общую систему ассоциаций, где синтетический сигнал может быть связан с предметом, и понемногу вырисовывается дорожка к будущему взаимодействию, построенному на взаимном интересе.

Исследователи не навязывают дельфинам человеческий язык, а строят общую систему ассоциаций, где синтетический сигнал может быть связан с предметом, и понемногу вырисовывается дорожка к будущему взаимодействию, построенному на взаимном интересе.

Что такое CHAT на самом деле

Важно: на сегодняшний день CHAT - это оперантное кондиционирование, а не словарь, протоязык или диалоговая система. Дельфин пока не инициирует новые сигналы самостоятельно. Это эксперимент по формированию общей системы ассоциаций между синтетическими сигналами и объектами, а не навязывание человеческого языка дельфинам.

Сравнение с другими формами интеллекта

Эти системы не сопоставимы по архитектуре, но сравнимы по принципу распределённого решения задач. Примеры ниже важны не потому, что у муравьёв есть язык, а потому что они показывают: эффективное решение задач не требует ни речи, ни крупного мозга - интеллект может быть распределённым.

Муравьи: коллективный интеллект без языка

У муравьёв нет языка в человеческом понимании. Они используют феромоны - химические вещества, работающие как химическая система коммуникации. Но в серии экспериментов исследователи показали, что муравьи способны различать количество элементов и демонстрировать поведение, совместимое с простейшими арифметическими операциями.

В декабре 2024 года исследователи из Института науки Вейцмана в Израиле опубликовали в Proceedings of the National Academy of Sciences (PNAS) эксперимент, в котором муравьи и люди должны были протащить груз Т-образной формы через лабиринт. При этом в некоторых экспериментальных условиях людям запрещали общаться - ни говорить, ни обмениваться жестами, чтобы уравнять условия с муравьями.

Результат оказался неожиданным. Группы муравьёв решали задачу гораздо лучше одиночек, демонстрируя свойства коллективного интеллекта, которых отдельные муравьи проявить не могут. В условиях отсутствия речевой коммуникации человеческие группы в среднем уступали муравьиным колониям по эффективности совместного решения задачи.

Совместное решение сложной пространственной задачи без словесных команд показывает, что высокая эффективность группы не всегда требует развитой речи, и этот контраст заставляет по-новому взглянуть на природу интеллекта.

Совместное решение сложной пространственной задачи без словесных команд показывает, что высокая эффективность группы не всегда требует развитой речи, и этот контраст заставляет по-новому взглянуть на природу интеллекта.

Другие проекты в области биоакустики

Муравьи - лишь один из примеров того, как по-разному может быть устроен интеллект. Но если учёные хотят понять, насколько уникальны дельфины, стоит посмотреть и на другие виды, которые тоже привлекли внимание исследователей - от кашалотов до ворон.

Кашалоты, вороны и конкурс с призом

7 мая 2024 года исследователи из Массачусетского технологического института и проекта CETI опубликовали в журнале Nature Communications работу, в которой описали комбинаторную систему элементов вокализаций кашалотов - структуру, которую авторы образно сравнили с фонетическим алфавитом.

Тем временем проект Earth Species Project при поддержке сооснователя LinkedIn Рида Хоффмана и Paul G. Allen Family Foundation (Фонда семьи Пола Г. Аллена) создал NatureLM-audio - одну из первых аудио-языковых фундаментальных моделей, специально разработанных для биоакустики. Система классифицирует звуки животных по видам и анализирует огромные массивы данных за минуты вместо месяцев.

Учёные изучают десятки видов - от ворон и пауков-скакунчиков до китов и приматов.

А конкурс Coller Dolittle Challenge, учреждённый Jeremy Coller Foundation и Тель-Авивским университетом, в мае 2025 года вручил первый ежегодный приз в $100 000 команде под руководством Лаэлы Сайиг (Laela Sayigh) из Океанографического института Вудс-Хоул (Woods Hole Oceanographic Institution) при участии исследователей из Университета Сент-Эндрюс, Орхусского университета, а также Brookfield Zoo Chicago (в рамках Sarasota Dolphin Research Program) - за обнаружение у дельфинов неавтографических свистов, которые могут функционировать как контекстно-зависимые сигналы.

Крупная награда (major award) в размере $500 000 наличными или $10 млн в виде инвестиций ждёт того, кто совершит прорыв в двусторонней межвидовой коммуникации.

Что исследование акустической коммуникации дельфинов меняет в науке

Все эти проекты - от анализа дельфиньих свистов до расшифровки кашалотов и муравьиных алгоритмов - сходятся в одном: исследователи только начинают осознавать, насколько разнообразен интеллект на этой планете. И вопрос уже не в том, кто умнее, а в том, как человечество может научиться слышать других.

Ключевая неизвестность

Никто не знает, какая доля выявленных ИИ паттернов действительно несёт смысл, а какая - это артефакты записи, дыхательные циклы или помехи. Без привязки к поведению любая статистика остаётся гипотезой.

Чем ближе учёные подходят к пониманию того, как устроена акустическая коммуникация дельфинов, тем более сложными становятся вопросы. Если у дельфинов есть система индивидуальных сигнатур, если они реагируют на сигналы знакомых особей, если они способны учитывать порядок символов в искусственных командах и имеют региональные различия в вокализациях, которые некоторые исследователи называют "диалектами" - то что это говорит о природе интеллекта?

Три уровня: сигнал, структура и семантика

Здесь важно разделять три уровня: сигнал (акустика), структура (паттерны) и семантика (значение). ИИ сейчас работает на уровне структуры, а не семантики. Учёные видят повторяющиеся паттерны, но не знают, что они означают. Именно переход от структуры к семантике остаётся главным нерешённым вопросом современной биоакустики.

Тэд Старнер (Thad Starner), научный сотрудник Google DeepMind и профессор Технологического института Джорджии, говорит: некоторые исследователи предполагают, что наличие сложной коммуникационной системы могло бы указывать на зачатки культуры - но это пока лишь гипотеза, требующая подтверждения.

Сорок лет Дениз Херзинг плавала с одними и теми же дельфинами, записывала их звуки, документировала их жизни и ждала появления инструмента, достаточно мощного, чтобы увидеть эти закономерности. Она описывала DolphinGemma как устройство, которое различает паттерны, недоступные человеческому восприятию.

Пока никто не знает, что означают эти паттерны. Но впервые появились инструменты, способные искать их систематически, воспроизводимо и в масштабах, недоступных человеку. Возможно, главный прорыв здесь - не ответы, а возможность наконец задавать данным правильные вопросы. Именно так сегодня начинается большинство крупных научных открытий: сначала появляются инструменты, а уже потом - ответы.