35,8 тыс подписчиков

Кластеры, память и галлюцинации машин: о чем на самом деле говорят LLM

3 дня назад3 дня назад

14 мин

Доктор технических наук Борис Миркин, профессор «Вышки» и почетный профессор Лондонского университета, много десятилетий занимается кластерным анализом — областью, которая ищет в данных устойчивые группы похожих объектов. В разговоре с нами он объясняет, почему большие языковые модели и кластеризация работают с одними и теми же вопросами принципиально по-разному, что на самом деле стоит за «галлюцинациями» ИИ, почему человеческое мышление не сводится ни к логике, ни к вероятностному подбору слов, и отчего разговор о будущем искусственного интеллекта рано считать завершенным. Что мы вообще называем кластером — Что такое кластеризация данных и как она связана с ИИ? — Мне кажется, здесь полезно начать даже чуть раньше и напомнить, что человеческие представления о будущих технологиях почти всегда довольно сильно расходятся с тем, что в итоге появляется в действительности: сказочный ковер-самолет превратился не в легкую и изящную материю, несущую человека по воздуху, а в огромную сильно шумящую и плохо пахнущую техническую конструкцию, которую мы называем самолетом (не забудем и необходимые взлетно-посадочные полосы, аэропорты, залы регистрации и пр.). С искусственным интеллектом, как мне кажется, происходит примерно такая же метаморфоза. Когда об искусственном интеллекте заговорили как о научной проблеме во второй половине XX века, многим казалось, что речь пойдет прежде всего о машине, которая умеет мыслить в логическом, почти философском смысле этого слова, однако реальная история пошла другим путем. Математико-логические конструкции практически не используются в современном инскусственном интеллекте. Точно так же оказывается ненужной и кластеризация. Кластеризация — это способ моделирования другой очень важной составляющей человеческого интеллекта – способности к обобщению. Особенно ясно эта составляющая проявляется в языках человеческого общения. Яблоки, груши и персики относятся к более общему понятию «фрукты», а слова идти, ехать, бежать – к глаголам движения. Подобным образом кластеризация занимается тем, чтобы увидеть среди объектов, описанных некоторым набором признаков, такие группы, внутри которых элементы похожи друг на друга сильнее, чем на все остальные объекты в массиве данных. Иными словами, кластер — это не некая готовая сущность, которая лежит в данных и ждет, когда ее поднимут, а исследовательская гипотеза о том, что в этом множестве есть устойчивая структура, и задача кластерного анализа состоит в том, чтобы эту структуру попробовать выделить, описать и, по возможности, использовать. — То есть кластеризация наводит в данных порядок? — Да, хотя стоит оговориться, что кластеризация скорее предполагает возможность обнаружения этого порядка. Более того, разные алгоритмы могут видеть разные кластеры, и это так же естественно, как образование различных политических партий в различных сообществах. Я всю жизнь занимаюсь кластерным анализом и потому хорошо знаю, насколько это поле одновременно плодотворно и зыбко: у него есть собственные журналы, свои критерии, свои математические традиции, свои споры, но при этом вопрос о том, что именно считать кластером в строгом научном смысле, до сих пор является открытым. Практика показывает, что кластеры работают, люди на них опираются, бизнесы и исследователи ими пользуются, но сама идея кластера по-прежнему не так прозрачна, как, например, физический закон, который можно записать в компактной форме и затем многократно воспроизводить в эксперименте. Почему ИИ оказался не таким, как его ждали — Вы говорили, что искусственный интеллект в реальности оказался не таким, каким его представляли. В чем именно это расхождение? — Когда я пришел в науку, а это было еще в 1960-е годы, я внимательно следил за тем, как развивались идеи вокруг искусственного интеллекта, и должен признаться, что многое в них мне казалось либо поспешным, либо просто ненаучным. Особенно скептически я относился к ходу мысли, восходящему к Алану Тьюрингу, который в своей знаменитой работе предложил рассуждать так: если в разговоре мы не можем отличить машину от человека, значит, допустимо признать, что машина мыслит. Этот мысленный эксперимент он называл imitation game, «игрой в имитацию». Мне тогда казалось, что такой подход слишком мало похож на науку в привычном для меня смысле слова, потому что наука обычно требует сначала ввести понятия, затем установить связи между ними, а уже после этого проверять гипотезы, и в тьюринговской постановке я не видел достаточной опоры на такую понятийную работу. Проще говоря, я долго считал это чем-то вроде блестящей, но все же шутки гения. — И теперь вы думаете иначе? — Теперь я вынужден сказать прямо, что в своем скепсисе ошибался. История повернулась так, что именно это направление, которое многим казалось слишком рыхлым, привело к реальным технологическим системам, которыми сегодня пользуются буквально все, и я сам не исключение. Более того, в 2024 году Джеффри Хинтон вместе с Джоном Хопфилдом получил Нобелевскую премию по физике за изобретения, которые сделали возможным машинное обучение с искусственными нейронными сетями, и это очень показательный жест со стороны научного сообщества. То, что еще недавно воспринималось как сомнительная интеллектуальная авантюра, стало частью признанной научной истории. Так что сегодня мне остается признать, что реальный искусственный интеллект возник не там, где его ожидали увидеть исследователи моего поколения. — Что вы ожидали увидеть? — Прежде всего логическую машину. Долгое время казалось, что если человеческое мышление ценно своей способностью делать последовательные выводы, связывать посылки и заключения, двигаться по цепочке «если из А следует Б, а из Б следует С, то из А должно следовать С», значит, именно это и нужно автоматизировать в первую очередь. Затем пришло другое поколение исследователей, к которому в известной мере принадлежу и я, и оно стало говорить, что интеллект — это не только логика и, возможно, даже не прежде всего логика, а способность к обобщению, к усмотрению общего в разных предметах и ситуациях. Кластерный анализ родился именно в этом контексте, потому что он пытается ухватить сходство, структуру и семейство признаков там, где нет готового формального правила. Чем LLM отличаются от кластеров — Тогда в чем состоит главное различие между большими языковыми моделями и кластерным анализом? — Если говорить очень коротко, то современные большие языковые модели не устроены как системы, которые сперва строят устойчивые понятия или выделяют в мире четко зафиксированные кластеры, а потом на их основе рассуждают. Они опираются на огромный оцифрованный массив текстов, изображений и других данных, а затем с колоссальной скоростью вычисляют, какое продолжение данного фрагмента наиболее вероятно. То есть в основе здесь не логическая дедукция и не обязательное предварительное построение устойчивых классов объектов, а чрезвычайно быстрый подсчет наиболее вероятного следующего слова, символа или токена, что и составляет базовый принцип работы LLM. — Но ведь со стороны кажется, что такие модели все равно что-то понимают. — Со стороны это действительно так и выглядит, потому что результат для пользователя часто очень убедителен, но мне здесь нравится сравнение, которое когда-то объяснили мне коллеги-психологи, говоря о человеческой ориентации в пространстве. Представьте, что вы вышли из метро, кто-то провел вас сложным маршрутом, а затем вам нужно самому вернуться назад: одни люди запоминают мелкие приметы, не строя в голове никакой карты, и безошибочно находят обратную дорогу, а другие, к числу которых отношусь я, почти не замечают примет и могут ориентироваться только тогда, когда мысленно выстраивают карту местности и помещают себя в определенную точку этой карты. Вот современные языковые модели, как я понимаю, похожи скорее на первый тип ориентации, тогда как кластерный анализ принадлежит миру второго типа, где исследователь пытается выявить устойчивую структуру пространства, а не просто успешно двигаться внутри него по набору корреляций и локальных подсказок. — То есть LLM и кластеризация отвечают на разные вопросы? — Я бы не сказал, что на разные. Скорее, они могут отвечать на одни и те же вопросы, но делают это принципиально разными способами. Языковая модель может дать очень убедительный ответ, потому что прекрасно сориентировалась в вероятностной структуре оцифрованного материала, а кластерный анализ пытается установить, есть ли за этим ответом более устойчивая конфигурация сходств и различий, которую можно описать как структуру данных. Поэтому между ними не стоит проводить слишком грубую границу: это не два мира, которые никогда не соприкасаются, а два разных способа обращения с одной и той же сложной реальностью. Почему у моделей возникают «галлюцинации» — Тогда как вы понимаете то, что сегодня называют галлюцинациями языковых моделей? — Мне кажется, само слово здесь немного сбивает с толку, потому что заставляет думать о чем-то почти мистическом или патологическом, тогда как в действительности мы видим следствие вполне определенного способа работы системы. Когда модель выдает ерунду, это результат того, что она жестко привязана к фактуре, на которой обучалась, и движется внутри вероятностных соотношений этой фактуры, а не внутри мира так, как это делает человек. Ребенку достаточно один раз показать кошку, чтобы потом он отличал кошек от собак в самых разных условиях, при другом освещении, в другой позе, даже в другой степени схематичности, тогда как языковой модели или системе распознавания нужны огромные массивы примеров, только после чего она начинает демонстрировать что-то похожее на обобщение. Именно поэтому нынешнее развитие искусственного интеллекта не может считаться финальной стадией истории: если машина по-настоящему научится работать не только с бесконечной фактурой, но и с устойчивыми образами, возникающими как более компактные, структурированные единицы опыта, это будет уже следующий шаг. — Вы сейчас говорите о чем-то вроде человеческих врожденных схем восприятия? — Да, в каком-то смысле именно об этом, хотя, конечно, здесь надо быть аккуратным с формулировками. Человеческая когнитивная система, по-видимому, опирается на некоторый набор элементарных форм и устойчивых образов, которые не нужно каждый раз заново конструировать из миллионов примеров; мы довольно рано начинаем различать линии, углы, замкнутые формы, повторяющиеся паттерны, и на этой основе быстро собираем картину мира. Если говорить совсем просто, то машине сегодня не хватает не столько мощности и данных, сколько не хватает более экономного и структурного способа работы с опытом. — И здесь возникает ваш тезис о памяти? — Да, потому что без памяти разговор о полноценном интеллекте для меня остается незавершенным. Я занимался в свое время теорией автоматов, и там память была принципиальной вещью: система не просто реагирует на текущий вход, она переходит из состояния в состояние и за счет этого может строить более сложное поведение. Мне кажется, что искусственный интеллект начнет по-настоящему удивлять тогда, когда сможет сочетать работу с текущей фактурой, формирование устойчивых понятий и настоящую память, которая не сводится к временному удержанию фрагмента текста в контексте диалога. Возможно, завтра или через двадцать лет появится какой-нибудь новый исследователь, который сумеет это делать, и тогда наши сегодняшние разговоры будут казаться такими же наивными, как разговоры людей 15-го века о быстром перемещении в пространстве. Что такое аномальные кластеры — В ваших работах часто встречается выражение «аномальные кластеры». Что это такое? — Это одна из моих главных идей, и выросла она из недовольства стандартными алгоритмами, которые пытаются одновременно разбить весь массив данных на несколько групп. Мне показалось, что в ряде случаев продуктивнее сначала выделить аномальный фрагмент, то есть кусок данных, который по отношению к выбранному центру оказывается наиболее удаленным и потому заслуживает отдельного внимания. Если совсем огрубить, можно взять некоторый центр, условно говоря, Москву, и тогда аномальным будет то, что находится далеко от Москвы, если взять другой центр, например Краснодар, то аномальность окажется устроена уже по-другому, потому что изменится сама логика расстояния и отклонения от центра. Ведь Москва, прежде всего, мощный промышленный узел, тогда как Краснодар скорее центр аграрной деятельности. В этом смысле аномальный кластер — не какая-то экзотическая группа объектов, а способ увидеть структуру массива через его выбросы, края и отклонения, а затем буквально «отщипывать» такие куски по одному. — То есть вы предлагаете постепенно отделять наиболее особенные области в данных? — Да, именно так. Более того, мне удалось доказать, что некоторые популярные алгоритмы, которые внешне работают совсем иначе и ищут все кластеры сразу, в некотором смысле опираются на критерии, очень близкие к тем, которые я использую в своей постановке, только моя логика выражена по-другому и строится от аномального фрагмента. На искусственных данных мне далеко не всегда удается подтвердить, что мой подход лучше других, и я не хотел бы здесь выдавать желаемое за доказанное. Тем не менее в реальных задачах он часто дает очень интересные результаты именно потому, что реальный мир редко разложен на аккуратные и симметричные группы, а вот странные, локальные и плохо заметные структуры в нем встречаются постоянно. Где кластеры работают лучше всего — В каких областях кластеризация сегодня реально используется? — Когда я защищал докторскую диссертацию, меня постоянно спрашивали, откуда вообще берутся кластеры и почему я уверен, что они существуют, и, честно говоря, убедительно ответить я тогда не умел. Но затем за меня многое ответила практика. Помню, мне позвонил бывший ученик из Китая, живший в Пекине, и сказал, что работает в банке и занимается там кластерным анализом, потому что банку жизненно важно различать типы поведения клиентов, видеть, кто как возвращает кредиты, кто как реагирует на финансовые предложения, кто принадлежит к одной поведенческой группе, а кто к другой. В таких областях, как банкинг, маркетинг или туристический бизнес, нет той жесткости, которую мы видим в физике, где атом движется по законам, мало зависящим от настроения наблюдателя, зато есть огромный спрос на методы, позволяющие находить в аморфной человеческой реальности устойчивые типы поведения. — То есть это прежде всего работа с человеческими паттернами? — Очень часто — да. Маркетинг, например, занят тем, что пытается понять, какие группы людей сходным образом откликаются на объявления, товары, интерфейсы, ценовые предложения, и без кластеризации такую задачу трудно даже сформулировать операционально. При этом я снова подчеркну: как научное понятие кластер остается довольно зыбким, но как инструмент работы с плохо формализуемыми системами он оказался чрезвычайно живучим и востребованным. Когда я начинал, не было никого, кто занимался бы кластер-анализом профессионально, а теперь это десятки тысяч людей в самых разных прикладных сферах. — А есть пример не из экономики и не из маркетинга? — Да, в одной из недавних работ с моей бывшей ученицей из Португалии мы занимались явлениями апвеллинга у океанского побережья: апвеллингом в океанографии называют явление, которое сродни тому, что в физике называют солитономсолитоном. На глубоких прибрежных участках океана протяженности в сотню километров возникает некий аналог горизонтально лежащей вращающейся трубы диаметром в десяток-другой метров. Вращение этой трубы вызывает подъем глубинной, более холодной и богатой питательными веществами воды к поверхности, и такие зоны часто оказываются биологически очень важными и связаны с высокой продуктивностью морских экосистем. Вот вам пример своеобразной локальной структуры в водной среде, имеющей большое значение для рыбы и, следовательно, для рыболовства, то есть для вполне материальной части экономики. Вот такие образования удалось описывать через логику аномальных кластеров, потому что они как раз проявляются не как средняя структура пространства, а как особое отклонение, которое и нужно уметь заметить алгоритмически. Можно ли с помощью кластеров проверять LLM — Сейчас много говорят о том, что генеративный ИИ нужно как-то верифицировать. Может ли кластеризация выступать способом такой проверки? — В некоторых случаях — да, хотя я бы не стал обещать слишком много и говорить о полноценной верификации как об уже готовой технологии. Мне кажется более точной мысль о взаимной поддержке: если кластеры, которые мы обнаруживаем в данных, хотя бы примерно согласуются с теми паттернами, которые выдает генеративная модель, это повышает доверие к тому, что модель опирается на некоторую объективную структуру материала. И наоборот, если между одним и другим возникает сильный разрыв, это повод задуматься, не сочиняет ли модель слишком уверенную картину там, где данные ей на самом деле не соответствуют. Так что я бы говорил здесь не о подчинении одной методики другой, а о полезном соседстве двух разных способов анализа. — То есть будущее, скорее всего, в том, что разные подходы будут работать вместе? — Именно так я это себе и представляю. Современные языковые модели уже очень много умеют, и спорить с этим было бы странно, но из того, что они умеют быстро и убедительно отвечать, еще не следует, что проблема структуры, памяти, устойчивых образов и надежной интерпретации данных снята с повестки. Поэтому я не вижу здесь повода объявлять какую-то одну технологию окончательным победителем: перед нами скорее разные интеллектуальные инструменты, каждый из которых высвечивает собственный аспект одной и той же сложной реальности. История показывает, что наука почти никогда не приходит к результату прямой дорогой и очень часто реализует идеи в форме, которую мы заранее не могли бы ни предсказать, ни признать правильной.