В новом эпизоде «Мыслить как ученый» Ивар Максутов беседует с Ашем Варданяном — инженером, основателем Unum и разработчиком инфраструктурных open-source проектов, которыми пользуются AI-лаборатории, базы данных и вычислительные команды по всему миру. Они обсуждают, почему бум ИИ оказался прежде всего бумом инфраструктуры, как видеокарты стали сердцем новых вычислений и зачем индустрия переходит к все менее точной, но все более эффективной арифметике. А еще говорят о том, зачем переписывать устаревшие слои технологического стека и можно ли строить большую инфраструктурную революцию почти в одиночку. Секрет успеха ИИ — масштаб «Люди после выхода ChatGPT начали ощущать влияние этих чат-ботов и похожих систем на свою повседневную жизнь. Это превратилось из какой-то нишевой технологии, интересной узкому кругу исследователей, в то, что связано и доступно каждому человеку самых разных возрастов — от самых молодых до самых взрослых. Все эти модели устроены очень похоже друг на друга. Обычно языковые модели учатся понимать то, как устроен текст, предугадывать слово внутри контекста или следующее слово внутри какой-то последовательности слов. И так получилось, что секретом успеха, в моих глазах, в меньшей степени стали все наши наработки в архитектурах или какие-то невероятные математические наработки, а в большей степени — просто масштаб. Мы взяли те же самые простые математические модели с очень небольшими изменениями, которые в целом все понимали много лет, и за последние 10 лет за счет закона Мура и увеличения плотности транзисторов на наших кристаллах умудрились тренировать идентичные простые модели просто намного больше». Мы строим ИИ на зыбучих песках «Когда к вам приходит маленький ребенок и вы задаете ему простые арифметические вопросы про то, как посчитать на пальцах сумму чисел, если вы ему говорите “три плюс три”, то ожидаете услышать ответ “шесть”. Но предположим, что числа, которые вы записали в эти транзисторы, имеют настолько маленький диапазон возможных значений, что они число шесть вообще не могут представить. И, например, весь диапазон чисел, которые каким-нибудь малобитным представлением можно описать, — от минус пяти до плюс пяти. Тогда вся ваша арифметика перестраивается в арифметику с потерями, где на ответ “три плюс три” компьютер вдруг выдает ответ “пять”. И работа людей, которые занимаются тренировкой очень больших моделей, сводится к тому, как представлять вычисления внутри искусственного интеллекта через вот такую неточную, очень грубую арифметику, в которой многие числа не могут быть представлены совсем. В случае людей, занимающихся искусственным интеллектом, эти ошибки не просто редкость, это данность, на которой они строят. Это зыбучие пески, на которых мы строим небоскребы». Гонка может идти не в ту сторону «Есть непопулярная идея, с которой я очень согласен в сердце, но мне сложно ее аргументировать головой: на самом-то деле в индустрии искусственного интеллекта сейчас достаточно много капитала, можно сказать, что это самая богатая индустрия в мире, самая конкурентная, самая быстроразвивающаяся. Если вычесть индустрию искусственного интеллекта из ВВП США, то в прошлом году роста в Америке не было. То есть, по сути, весь рост самой крупной экономики в мире, которая определяет вектор развития всей мировой экономики, почти целиком обуславливается за последние пару лет гонкой в искусственном интеллекте. Но при этом есть мнение, что все эти архитектуры и проекты, над которыми экспериментируют все эти лаборатории, на самом деле — гонка в неправильную сторону. И как бы много они ни тратили ресурсов и как бы быстро ни гребли, если они гребут в неправильную сторону, то эта скорость не так важна. И в этом плане для многих мне подобных людей это должна быть очень теплая идея: она означает, что не нужно иметь много ресурсов для того, чтобы делать великие интересные проекты, потому что, может быть, все остальные бегут очень быстро, но они бегут в неправильную сторону». Attention — это просто поиск «Задача поиска на самом деле намного более популярная задача, чем люди себе отдают отчет. Она происходит везде. Она происходит даже внутри нейросетей. Архитектура трансформера стандартизировала операцию attention, иначе говоря, внимания, когда мы обучаем нейросеть в разных уголках своей компоновки уделять внимание разным другим словам, проходящим через нее. Внимание — это в чистом виде операция поиска. Когда вы берете трансформер и в нем проходит сигнал, в каждом блоке трансформера есть три матрицы под названием query, key и value — то есть поисковый запрос, ключ для поисковых запросов и значение. Все, что происходит в трансформерном блоке, — на входящее слово или токен уделяется внимание в форме поискового запроса, дальше делается поиск всех других ключей внутри данного контекстного окна, которые больше всего соответствуют данному входящему запросу, а потом берется значение того токена, который оказался наиболее похожим». Инфраструктуру иногда нужно перепридумать «Причин менять инфраструктуру много. Одна из них — это просто неэффективности, которые мы везде накапливаем. Скажем, если вы можете обрабатывать в десять раз больше данных за такой же объем капитала или за такой же объем энергопотребления, то почему бы этого не делать? Вы станете намного более конкурентными. Вторая причина намного более философская: когда ты пользуешься огромным пластом готовой инфраструктуры, ты мыслишь категориями примитивов, которые были определены очень эволюционным подходом до тебя. И есть очень много пользы в том, чтобы время от времени отходить назад и задаваться вопросом: а зачем вообще мы сохраняем все эти накопленные слои старых решений, которые были приняты, и почему нам обязательно нужно строить в эволюционной форме, а не использовать революционную, когда мы можем себе позволить откатиться чуть назад и сделать что-то иначе? Мне всегда казалось, что компьютерные науки настолько молодые и свежие, там настолько много возможностей для инноваций, что просто принимать последние 50 лет работы как данность и соглашаться с тем, что вся последующая работа должна строиться на плечах гигантов, — с этим я не согласен».
Инфраструктура ИИ, точность вычислений и системы поиска — Мыслить как ученый #56
2 дня назад2 дня назад
2
5 мин
В новом эпизоде «Мыслить как ученый» Ивар Максутов беседует с Ашем Варданяном — инженером, основателем Unum и разработчиком инфраструктурных open-source проектов, которыми пользуются AI-лаборатории, базы данных и вычислительные команды по всему миру. Они обсуждают, почему бум ИИ оказался прежде всего бумом инфраструктуры, как видеокарты стали сердцем новых вычислений и зачем индустрия переходит к все менее точной, но все более эффективной арифметике. А еще говорят о том, зачем переписывать устаревшие слои технологического стека и можно ли строить большую инфраструктурную революцию почти в одиночку. Секрет успеха ИИ — масштаб «Люди после выхода ChatGPT начали ощущать влияние этих чат-ботов и похожих систем на свою повседневную жизнь. Это превратилось из какой-то нишевой технологии, интересной узкому кругу исследователей, в то, что связано и доступно каждому человеку самых разных возрастов — от самых молодых до самых взрослых. Все эти модели устроены очень похоже друг на друга. Обычно яз