35,8 тыс подписчиков

Как трансформер изменил искусственный интеллект

10 июня10 июн

22 мин

Если оспуститься в подвал Королевского института в Лондоне — того самого здания, где Майкл Фарадей в 1831 году намотал руками первый трансформатор — в одной из витрин можно найти этот экспонат под названием Ring-Transformer. Кольцо из намотанной проволоки, с которого началась эпоха электричества. Два века спустя в комнате над этим подвалом Михаил Бурцев, кандидат физико-математических наук и сотрудник Лондонского института математических наук, объясняет устройство другого трансформера — той архитектуры, которая стала сердцем современных больших языковых моделей. Искусственный интеллект сейчас действительно называют новым электричеством, и оба трансформера — один из железа, другой из математики — появились в одном месте. Два подхода к одной задаче Представьте человека на необитаемом острове с задачей построить искусственный интеллект — только инструментами собственного разума. Перед ним два очевидных пути. Первый: разобрать мозг на части, понять, как работает каждая часть, собрать обратно и получить интеллект. Для этого нужно смоделировать нейрон, описать правило его связи с соседями, придумать алгоритм обучения всей сети. Это нейросетевой подход — движение снизу вверх, от биологического субстрата к поведению. Второй путь выглядит иначе. Посадить сто пятьдесят математиков в комнате, дать каждому задачу и попросить записывать каждый шаг решения — не только что они делали, но и что думали в каждый момент. Собрать все отчёты, найти закономерности и на их основе построить алгоритм рассуждения. Этот подход движется сверху вниз, от описания когнитивного процесса к его формализации. Он не смотрит в нейроны, он пытается алгоритмизировать саму логику решения задач. В истории науки этот подход получил название символьного искусственного интеллекта — потому что работает с манипуляцией символами, а не с имитацией нейронной активности. Оба направления возникли параллельно в 40–50-х годах прошлого века и с тех пор соревновались друг с другом, попеременно получая преимущество. К началу 2000-х годов большинство исследователей разочаровались в обоих — и нейросети казались слишком абстрактными, и символьные системы не справлялись с реальной сложностью мира. Сообщество практически отказалось от термина «искусственный интеллект» в пользу более нейтрального «машинного обучения», которое воспринималось просто как набор статистических методов для решения конкретных задач. Если ты говоришь про искусственный интеллект — иди на конференцию по философии, а не на конференцию по компьютерным наукам. Игровые видеокарты и нейросети Перелом произошёл неожиданным образом и из неожиданного места. В начале 2010-х оказалось, что видеокарты — GPU, Graphic Processing Unit, созданные для того, чтобы игры работали с высокой частотой кадров без торможения — математически делают то, что нужно нейросетям. Рендеринг игровой графики требует линейной алгебры и параллельных вычислений. Нейросетевое обучение требует ровно того же. Производители видеокарт создавали их для геймеров, а исследователи ИИ обнаружили, что могут запускать на них модели, которые раньше были просто неподъёмны вычислительно. С появлением доступных GPU нейросети можно было сделать больше — увеличить их размер. Причём те же самые архитектуры пятидесятилетней давности, просто масштабированные, начинали хорошо классифицировать картинки, распознавать объекты и играть в Atari. Именно тогда крупные технологические компании стали предлагать бешеные деньги за нейросетевые алгоритмы, а в 2015 году статьи об искусственном интеллекте стали появляться на обложках Nature. Термин «ИИ» вернулся из философских семинаров в жёсткую науку — но теперь его двигал нейросетевой подход. Параллельно происходило нечто парадоксальное. Нейросети, которые в теории должны были окончательно вытеснить символьный подход, на практике стали решать те задачи, о которых мечтали символисты: вроде логических рассуждений и работы с языком в целом. Произошла конвергенция — не победа одного подхода над другим, а слияние двух традиций в точке, где появилась большая языковая модель. GPT и ChatGPT — это, по сути, нейросеть, которая научилась делать то, что пытался сделать символьный ИИ. Три класса задач Чтобы понять, почему трансформер стал переломной архитектурой, нужно сначала увидеть ландшафт, который существовал до него. К 2012–2014 годам нейросети уверенно работали в трёх больших классах задач. Первый — компьютерное зрение: дать на вход изображение, получить на выходе его класс. Кошка это или собака, есть ли на рентгеновском снимке опухоль, что за объект перед камерой автомобиля. Для этих задач использовались свёрточные нейронные сети, которые дробят изображение на паттерны и ищут их совпадения. Второй класс — обучение с подкреплением, управление агентами в среде. Знаменитая статья DeepMind 2015 года в Nature показала, что одна и та же нейросетевая архитектура, обученная отдельно на каждой из игр Atari, достигает уровня человека: в пинг-понге и в лабиринтах. Это было сенсацией — один и тот же алгоритм справлялся с задачами, которые принципиально отличаются друг от друга. Третий класс задач — обработка естественного языка — оказался самыйм важныйм для разговора о трансформерах. Главным тестом здесь служил машинный перевод, который давно считался одним из граалей ИИ-исследований: к нему пытались подступиться ещё с 60-х годов, разрабатывая огромное количество методов. Когда нейросети стали хорошо работать на картинках, их попробовали применить к переводу — и столкнулись с фундаментальной проблемой, которую стандартная архитектура решить не могла. Стандартная нейросеть обрабатывает то, что видит прямо сейчас: она получает одно изображение и предсказывает его класс. Но предложение — это последовательность, в которой слова зависят друг от друга, и длина этой последовательности варьируется. Чтобы обрабатывать последовательности, в нейросеть добавили память: помимо текущего слова, сеть видела своё собственное состояние с предыдущего шага. Это и есть рекуррентность — когда сеть смотрит на саму себя в прошлом. Проблема состояла в том, что каждый раз, когда сеть записывала новое слово в память, старое частично стиралось. Слова из начала предложения забывались — они успевали «перезаписаться» более свежей информацией. Переводчик, который к третьему слову французской версии уже не помнит первого английского слова — это очень ненадёжный переводчик. Откуда взялось внимание Исследователи начали думать, как справиться с этой проблемой забывания. Одно из решений казалось очевидным: вместо того чтобы хранить всё в одной записи памяти, которая постоянно перезаписывается, давайте сохраним отдельные состояния памяти для каждого слова и каким-то образом будем выбирать из них нужное. Но если просто усреднить все сохранённые состояния — получится каша, где всё со всем смешано и ничего особо не выделено. Механизм, который решил эту задачу, предложили в 2013 году Бенжио, Богданов и их коллеги именно для машинного перевода. Они работали с нейросетями состоящими из двух частей: энкодер – считывает и обрабатывает каждое слово предложения на исходном языке, и декодер – слово за словом генерирует перевод на основе закодированной памяти. Новая идея заключалась в следующем: когда декодер генерирует очередное слово перевода, он смотрит не на усреднённую память, а взвешивает все сохранённые состояния и определяет, какое из них наиболее релевантно сейчас. Для третьего слова в переводе, возможно, самым важным окажется первое слово оригинала. Для пятого — четвёртое. Это и есть механизм внимания, или attention. Технически он работает через скоринговую функцию — небольшую нейросеть, которая сравнивает текущее состояние декодера с каждым состоянием из истории энкодера и выдаёт числа: насколько каждая прошлая память похожа на то, что нам нужно прямо сейчас. Эти числа нормализуются в вероятности — скажем, одно слово получает 90% веса, остальные 10% распределяются между остальными. Потом взвешенная сумма всех состояний памяти даёт то самое «сфокусированное» представление, из которого генерируется следующее слово перевода. Attention состоит из двух шагов: сначала оценить релевантность представления каждогой слова в памяти, а потом агрегировать их с учётом этих оценок. Google взял эту архитектуру на вооружение и к 2015–2016 году построил на её основе нейронный машинный перевод. Использовалась двунаправленная LSTM — рекуррентная сеть, которая проходила по предложению в обоих направлениях, вперёд и назад, объединяя оба потока памяти. Много слоёв такой обработки заканчивались attention-связью между энкодером и декодером. Тогда же Google опубликовал пресс-релиз: качество машинного перевода достигло уровня человека-переводчика. Статья, которая изменила всё К 2016–2017 году архитектура машинного перевода работала, но исследователи видели её ограничения. Главное из них — рекуррентность: чтобы получить представление следующего слова, нужно сначала получить представление предыдущего. Нет параллелизма, вычисление линейно зависит от длины последовательности. Группа исследователей из Google придумала, как от рекуррентности избавиться. Вместо того чтобы каждое состояние памяти смотрело на соседа в том же слое, они сделали так, чтобы каждое состояние смотрело на состояния в предыдущем слое. Это позволило внутри одного слоя обрабатывать все состояния параллельно — зависимость между соседями исчезла. Вычисления ускорились кардинально. Второй ключевой шаг — введение self-attention. Обычный attention смотрел из декодера в энкодер: декодировщик использовал память кодировщика. Self-attention — это внимание на каждом слое: отдельный токен при кодировании смотрит на соседние токены предыдущего слоя. Чтобы хорошо закодировать слово, нужно понять его контекст — а контекст это и есть окружающие слова. Сеть, обрабатывая слой за слоем, смотрит на всё своё окружение через механизм внимания и тем самым получает более богатое представление каждого токена. В декодере это ещё важнее: когда генерируешь перевод, важно смотреть не только на исходный текст, но и на то, что уже успел сгенерировать. Первая половина переводимого предложения сильно определяет, как будет выглядеть вторая. Именно эта способность смотреть одновременно на всё через механизм внимания — и на оригинал, и на уже написанный перевод — составила суть прорыва. В 2017 году вышла статья «Attention Is All You Need» — название было перефразом битловской песни: внимание — это всё, что нам нужно. Рекуррентность больше не нужна. Архитектура, описанная в статье, получила название трансформера. Именно эта T стоит в конце аббревиатуры GPT. BERT и GPT: две стратегии из одной архитектуры После публикации статьи 2017 года произошло разветвление. Трансформер устроен из двух частей: энкодер, который хорошо представляет входной текст, и декодер, который генерирует выходной. Разные команды сделали ставку на разные части. Google взял первую часть — энкодер — и поставил на неё. Логика была такой: для многих прикладных задач нужно просто хорошее представление текста. Энкодер, если обучить его на огромных массивах текста, научится понимать язык. Но как обучать его без разметки? Придумали простую задачу: закрывать часть слов в тексте маской и просить модель предсказать, какое слово было скрыто. Эту задачу называют маскированным языковым моделированием, и для неё не нужны никакие размеченные данные — только тексты. Модель, предобученная таким образом, уже знает язык — и её потом можно дообучить на конкретную задачу с гораздо меньшим количеством данных. Этот подход получил название transfer learning, перенос знаний. Архитектура — BERT. OpenAI пошла другим путём. Они взяли вторую часть — декодер — и сделали ставку на генерацию. Модель обучалась предсказывать следующее слово в последовательности: не снимать маски в уже написанном тексте, а двигаться вперёд, не заглядывая в будущее. Это авторегрессионная генерация — каждое новое слово появляется на основе всего, что написано до него. Архитектура — GPT, Generative Pre-trained Transformer, генеративный предобученный трансформер. Поначалу казалось, что BERT выигрывает: модель, которая смотрит в обе стороны при кодировании, строит более богатые представления текстов, чем та, которая видит только прошлое. GPT генерировал тексты, которые с точки зрения исследований были интересны, но не очень полезны для приложений. Однако за декодерной стратегией стояло видение, которое оказалось дальновиднее: если модель обучена продолжать тексты, то задачу ей можно задать прямо на естественном языке. Написать «переведи этот текст» или «реши эту задачу», и модель, обученная продолжать текст, просто напишет решение — потому что именно так выглядит продолжение такого текста. Для этого не нужно дообучение под каждую задачу и не нужна разметка. Модель универсальна — и в этой универсальности заключается прорыв ChatGPT. Следующее слово как модель мира В этом месте появляется философское измерение. Задача, которую решает языковая модель, звучит подозрительно просто: предсказывать следующее слово. На поверхностном уровне кажется, что ничего глубокого здесь нет — статистика по текстам, не более. Но Бурцев возвращается к мысли Карла Поппера об эволюционной эпистемологии, чтобы показать, что это упрощение вводит в заблуждение. Попперовский тезис звучит так: амёба и Эйнштейн отличаются тем, что Эйнштейн может убивать свои идеи, не умирая сам. Всё живое вынуждено предсказывать будущее — это условие выживания в меняющейся среде. Организм, который лучше предсказывает изменения, адаптируется к большему числу условий. Интеллект в этом смысле — усиленная способность предсказывать будущее, способность решать больший репертуар задач. Тексты, на которых обучается языковая модель, — это результат миллионов лет эволюции, которая создала язык как инструмент передачи описания внешнего мира. Когда кто-то пишет «солнце светит», это набор звуков, порождающий в мозге другого человека активации, соответствующие определённому состоянию среды. Тексты — это отображение реальности в символах. Для того чтобы эффективно предсказывать следующее слово в таком тексте, модель внутри себя должна строить не только статистику слов, но и представление того мира, который эти слова описывают. Отсюда следует гипотеза, которую формулирует Бурцев: языковая модель, натренированная на достаточно большом корпусе текстов, начинает выучивать закономерности того самого мира, который тексты описывают. Она не видит мира напрямую, но через эти слова она реконструирует нечто похожее на его модель. Есть красивая параллель: слепоглухонемые дети, лишённые с рождения зрения и слуха, всё равно могут научиться языку, а некоторые из них учились в Московском государственном университете. Языковая модель тоже получает доступ к знанию об окружающем мире — через текст как единственный канал. Субъектность, которой нет Всё это, однако, не означает, что языковая модель «думает» или «понимает» в том смысле, в котором мы используем эти слова применительно к людям. Бурцев здесь категоричен: у LLM нет целей и нет субъектности. Вся направленность модели задаётся извне — в процессе посттренинга, когда люди обучают модель выдавать одни продолжения чаще других. Прорыв ChatGPT — это прежде всего прорыв в алгоритме, который научился отбирать из потока возможных продолжений те, что полезны пользователю. Сама модель ничего не хочет, она просто продолжает тексты — в той манере, которую ей привили обучением. Разница между ChatGPT и Claude в том, как были настроены приоритеты в процессе обучения. ChatGPT склонен соглашаться, что может усугублять проблему, если пользователь обращается за помощью с чем-то, в чём сам ошибается. Claude с большей вероятностью укажет на ошибку. Всё зависит от того, какое поведение поощрялось при обучении. Коперник убрал Землю из центра Вселенной, Дарвин показал, что человек — один из видов, а не венец эволюции, а Фрейд поставил под сомнение контроль над собственным поведением. Языковые модели добавляют следующий шаг: то, чем мы гордимся как интеллектуальной деятельностью, возможно, в значительной части сводится к умению предсказывать следующее слово. Конечно, у людей есть внутренние цели, субъектность, нечто, что остаётся за пределами предсказания, но граница стала заметно менее очевидной, чем казалась раньше. Ахиллесова пята архитектуры Механизм внимания, который сделал трансформер трансформером, одновременно является его главным ограничением. Бурцев описывает это через разделение памяти на два типа. Долговременная память трансформера — это то, что он выучил при обучении, читая тексты. Она хранится в весах сети и не требует attention. Эпизодическая, кратковременная память — это то, что модель видит в текущем контексте, в том конкретном диалоге или документе, с которым работает сейчас. Вот за эту кратковременную память и отвечает механизм внимания. Когда attention создавался для машинного перевода, предложение в нём было на 10–15 слов. Для этого масштаба всё работало прекрасно. Потом контексты начали расти: сначала до 300–400 слов, потом до тысяч, потом до десятков тысяч токенов. Проблема в том, что когда последовательность слишком длинная, внимание размазывается: вместо фокусировки на важном, оно расплывается по всему контексту. Модель теряет фокус — буквально как человек, которому говорят «найди слово в этом абзаце» против «найди слово в книге». Есть и вычислительная сторона проблемы. Скоринговая функция механизма внимания считает попарные взаимодействия между всеми токенами в контексте. Это значит, что количество вычислений растёт как квадрат длины последовательности. Удвоили контекст — вычислений стало в четыре раза больше. Это делает длинные контексты дорогими в буквальном смысле: они требуют больше электричества и больше памяти. Исследования показывают, что Gemini с технической поддержкой миллиона токенов в контексте на практике эффективно использует лишь первые 5–10% от него. Если усложнить задачу — например, потребовать скомбинировать два факта из разных мест документа — эффективный контекст сокращается ещё больше. При трёх-четырёх фактах, которые нужно связать, модель начинает путаться уже на двух тысячах слов. Вот почему пользователи периодически чистят чат и начинают новый: модель, которой задают очень длинный разговор, начинает «путаться в собственных мыслях» — внимание размазалось и перестало различать важное от неважного. Интересный артефакт обучения при этом состоит в том, что начало и конец контекста модель помнит лучше, чем середину: постановка задачи и результат важнее, чем путь между ними. Рекуррентный трансформер: архитектура с памятью Именно с проблемой контекста и связана работа Бурцева с коллегами. Идея появилась несколько лет назад из другого соображения: как сделать трансформер умнее. Стандартный трансформер «думает» внутри одного вектора — многомерного представления текущего состояния, которое обновляется по мере прохождения слоёв. Бурцев задался вопросом: а что если добавить параллельные мыслительные пространства? Дать модели несколько таких векторов, по которым она может идти одновременно, рассматривая альтернативные гипотезы, и при этом позволить ей смотреть через механизм внимания из одного такого пространства в другое. Эти дополнительные векторы были названы memory tokens — токены памяти — и добавлялись на вход модели как специальные входные данные, семантически никак не связанные с текстом. Модель могла использовать их для своего мыслительного процесса. Небольшое улучшение качества машинного перевода — первый результат, который, впрочем, не выглядел революционным. Революционным оказалось другое: если у трансформера теперь есть дополнительные векторы памяти, значит можно передавать их от одного сегмента текста к следующему — как состояние рекуррентной нейросети. Стандартный трансформер с контекстом в 1000 токенов обрабатывает только их. Рекуррентный трансформер берёт первые 1000 токенов, что-то записывает в память, переходит к следующим 1000, обрабатывает их уже с учётом предыдущей памяти, обновляет память — и так далее. Последовательность длиной в миллион токенов превращается в тысячу сегментов по тысяче токенов. Преимущества этого подхода сразу два. Вычислительно: квадратичный рост вычислений исчезает — attention всегда работает в пределах одного сегмента фиксированного размера. Качественно: внимание перестаёт размазываться по огромной последовательности и всегда остаётся в небольшом диапазоне. На этой архитектуре команда Бурцева обработала последовательность длиной 50 миллионов токенов — и ответила на вопросы по ней. Чтобы понять масштаб: Британская энциклопедия занимает примерно 10 миллионов токенов. Gemini с технической поддержкой миллиона токенов в контексте и рядом не стоял. Рекорд в 50 миллионов токенов, по словам Бурцева, до сих пор никем не побит — прошло уже два года. Объясняется это тем, что никому из создателей коммерческих моделей такой масштаб просто не нужен: пользователи прекрасно работают с 100 тысячами токенов, и для большинства задач этого достаточно. Геном как следующий язык Если архитектура умеет работать с очень длинными последовательностями из символов, возникает вопрос: а почему только текст? В каждой клетке человеческого тела находится молекула ДНК длиной около двух метров — последовательность из примерно трёх миллиардов нуклеотидов, которые обозначаются буквами A, T, G и C. Эта последовательность определяет значительную часть здоровья: вклад генетики в развитие четырёх крупнейших групп заболеваний — от диабета до онкологии — составляет от 30 до 80 процентов наследуемой компоненты. При этом современная медицина объясняет примерно половину этого наследственного вклада. Если взять геном человека и попробовать его «прочитать» как последовательность токенов по аналогии с текстом, то получится примерно 300 миллионов токенов (при среднем токене в 10 нуклеотидов — результат, к которому пришла команда, создав словарь из 30 тысяч наиболее часто встречающихся мотивов ДНК). Контекст ChatGPT — около 100 тысяч токенов, Gemini — миллион. Геном в три раза длиннее рекордного контекста любой коммерческой модели. Это и есть задача, для которой рекуррентный трансформер Бурцева пришёлся к делу. Модель ДНК работает по той же логике, что языковая модель текста: она предсказывает следующий токен в последовательности, выучивая статистику геномных последовательностей. Из этого обученного представления можно предсказывать экспрессию генов (какие гены «включены» в данной клетке), классифицировать виды по геномным последовательностям, находить биологически значимые сигналы. В перспективе логика рассуждения ещё амбициознее. У однояйцевых близнецов геном практически идентичен — за исключением соматических мутаций, накапливающихся в течение жизни. Это значит, что геном во многом определяет фенотип: то, как именно организм развивается. Если хорошо понять эту зависимость, можно в принципе думать о том, как целенаправленно изменять последовательность, чтобы изменять характеристики организма нужным образом — in silico, в компьютерных расчётах, прежде чем что-либо делать с реальными клетками. Победивший подход и его последствия Трансформер победил, что зафиксировано и масштабом инвестиций, и тем, что все крупные коммерческие модели — GPT, Claude, Gemini, Llama — построены именно на этой архитектуре. Но является ли победивший подход лучшим? Трансформерный подход фундаментально работает на максимально больших датасетах: собери всё, что можно собрать. Это приводит к тому, что большая часть обучающего корпуса — это контент среднего качества: форумы, блоги и комментарии. Компании стараются фильтровать и балансировать данные, но базовая установка «больше данных — лучше модель» задаёт определённую траекторию. Уже сейчас лингвисты фиксируют, что английский язык начинает впитывать фразы и конструкции, характерные для регионов, на контенте которых активно тренировались языковые модели. Есть и другое измерение этой проблемы. Победившая архитектура стала стандартом — примерно как раскладка QWERTY, которая не самая эргономичная, но теперь присутствует на всех клавиатурах и заменить её уже невозможно. Крупные компании, владеющие этими моделями, задают правила игры для всей индустрии. Определённые подходы к обучению, определённые типы данных и определённые принципы выравнивания моделей становятся фактически стандартом по умолчанию. Интернет задумывался как инструмент связывания учёных и обмена знаниями, но превратился прежде всего в инфраструктуру для развлечений. Развлечения оплачивают эту инфраструктуру, которая потом используется в том числе для науки, — это можно считать удачным компромиссом. Но если ИИ идёт по тому же пути, то ставка на удовлетворение запросов большинства ведёт к движению к среднему. Алгоритмы YouTube поощряют наиболее удерживающий внимание контент, делая его проще и задавая ответы вместо вопросов. Языковые модели, снимая когнитивную нагрузку, создают у пользователей ощущение, что все ответы уже есть и добывать их самостоятельно незачем. Когнитивный аутсорсинг Понятие cognitive offloading — когнитивный аутсорсинг — описывает то, что происходит, когда человек передаёт часть мыслительных процессов внешнему инструменту. Калькулятор давно взял на себя арифметику, навигатор — ориентацию в пространстве, поиск — запоминание фактов. Языковые модели претендуют на аутсорсинг рассуждений — и это качественно иная ставка. Регулирование здесь — не абстрактная проблема. Алкоголь и сигареты сначала распространялись без ограничений, потом общество научилось их регулировать с помозью возрастных ограничений и запретов на рекламу. Скорость изменений, которые вносит ИИ, значительно выше скорости распространения предыдущих технологий — и вопрос в том, успеет ли скорость регуляторных реакций за скоростью появления новых проблем. Главное, чтобы скорость нашей реакции не отставала от скорости изменений. Спор между нейросетевым и символьным подходами, который занимал исследователей ИИ семь десятилетий, разрешился не победой одного из них, а их слиянием — причём в форме, которую никто не предсказывал. Нейросеть, обученная предсказывать тексты, начала решать задачи логического вывода, которые были мечтой символистов. Сейчас, по словам Бурцева, на горизонте уже не двойственный союз, а тройственный: системы вроде AlphaEvolve из DeepMind улучшают компьютерные программы, сгенерированные языковой моделью, чтобы решать математические задачи. Нейросеть генерирует символьные представления, которые затем изменяются эволюционным алгоритмом. Три традиции в одной системе. Ответ на вопрос «создали ли мы искусственный интеллект» во многом зависит от того, что мы решим вкладывать в это понятие. Если интеллект — это способность решать широкий репертуар задач, предсказывать и адаптироваться, то что-то похожее уже есть. Если интеллект требует субъектности, целеполагания и сознания — то нет, и Бурцев не думает, что такое будущее близко. Разговор о трансформерах неизбежно становится разговором о том, что именно делает нас нами.

Гаджеты и электроника

5,73 млн интересуются