Пока публичные дискуссии об искусственном интеллекте сосредоточены на возможностях языковых моделей, качестве их ответов и этических последствиях их применения, в тени остается другой слой — инфраструктурный. Именно здесь, в пространстве числовых форматов, матричных операций и поисковых алгоритмов, определяется то, насколько мощными окажутся модели следующего поколения. Аш Варданян, создатель опенсорс-библиотек, которыми сегодня пользуются крупнейшие технологические компании мира, объясняет, как устроена эта невидимая часть индустрии — и почему здесь сосредоточен главный потенциал для инноваций. Почему видеокарты стали основой ИИ Нынешний технологический бум во многом обязан своим существованием сдвигу, произошедшему еще в 2008 году: именно тогда разработчики начали использовать графические процессоры и видеокарты для задач, не имеющих никакого отношения к графике. Появление языков программирования CUDA и OpenCL открыло возможность перекладывать на GPU операции линейной алгебры: перемножение больших матриц, свертку тензоров и обчисление весов нейронных сетей. Принципиальное отличие видеокарты от центрального процессора заключается пропорции между размером вычислительных ядер и их количеством. У CPU ядра умные, сложные и мощные в изоляции, но их немного. У GPU ядра примитивны по отдельности, зато их тысячи, и задачи, допускающие параллельную обработку, — а умножение матриц как раз именно такая задача — выполняются на них принципиально быстрее. За последние десять лет NVIDIA превратилась в самую дорогую компанию мира с капитализацией порядка 5 триллионов долларов, а весь рост американской экономики за последние пару лет почти целиком обусловлен гонкой в области искусственного интеллекта — без этого сектора роста в ВВП США фактически не наблюдалось. Арифметика с потерями: почему ИИ считает приблизительно Долгое время стандартом в научных вычислениях служили числа с двойной точностью — 64-битные значения, способные хранить очень большой диапазон чисел с высокой степенью детализации. Именно в таком формате обсчитывались траектории ракет, климатические модели и орбиты космических аппаратов. Потом пришел искусственный интеллект — и представления о том, какой должна быть арифметика, начали меняться. Ключевой интуицией, изменившей индустрию, стало наблюдение: для нейронных сетей важно не столько точное значение сигнала, проходящего от одного нейрона к другому, сколько количество таких нейронов. Если можно пожертвовать детализацией числа, но за счет этого разместить на том же кристалле значительно больше вычислительных элементов — сеть в итоге окажется мощнее. Индустрия последовательно двигалась от 64-битных чисел к 32-битным, потом к 16-битным, а сегодня активно экспериментирует с 8-битными и даже 4-битными форматами. Представьте ребенка, которого спрашивают, сколько будет 3 плюс 3. Если диапазон чисел, доступных этому ребенку, ограничен — скажем, от минус пяти до плюс пяти, — то на вопрос «сколько будет 3 плюс 3» он честно ответит «пять», потому что «шесть» в его системе счисления просто не существует. Так работает низкобитная арифметика в нейронных сетях: числа, выходящие за пределы допустимого диапазона, обрезаются, производя ответы, которые в обычной системе счисления выглядели бы абсурдными. Это осознанный архитектурный компромисс. Индустрия строит небоскребы на болотистых сваях, вполне отдавая себе в этом отчет. Большинство крупных лабораторий сегодня тренируют модели в режиме смешанной точности, когда разные этапы обучения используют числа разной битности, — и этот подход хорошо работает на практике, хотя его строгое математическое обоснование нередко запаздывает за эмпирическими наблюдениями. Важное следствие этого положения дел: координация между производителями железа и исследователями ИИ превратилась в один из главных механизмов прогресса индустрии. Вендор не может просто объявить о поддержке нового формата чисел, пока лаборатории не покажут, что на нем можно обучать адекватные модели. Исследователи не могут экспериментировать с новой архитектурой, не зная, что именно поддерживает железо. Этот скоординированный вальс, где каждый следующий шаг делается совместно, — и есть то, как в действительности двигается передний край индустрии. NumKong и проблема переносимости Одним из ответов на описанную проблему стал проект NumKong — коллекция реализаций арифметических операций в смешанной точности почти для всех современных чипов, произведенных за последние десять лет. Его логика состоит в следующем: даже если отдельное сложение двух чисел дает неточный результат, при правильной организации многих таких операций ошибки не накапливаются, а компенсируют друг друга. Если выстроить последовательность вычислений так, что статистически ошибки взаимно уничтожаются, итоговый ответ окажется правильным — даже когда каждый отдельный шаг производился с потерями. Но NumKong решает и другую задачу — портативность. Разные производители чипов делают разные ставки при проектировании кристалла: площадь подложки ограничена, и каждая компания по-своему решает, какие типы арифметики поддерживать аппаратно, а какие нет. Это значит, что модель, натренированная на видеокарте одного вендора, может некорректно работать на процессоре другого без дополнительной конвертации. NumKong обеспечивает промежуточный слой — подложку, позволяющую переносить вычисления между устройствами без потери смысла. По сути, это инфраструктура для переносимости: если описание нейросети прошло через примитивы проекта, с высокой вероятностью его можно запустить на любом чипе, произведенном за последнее десятилетие, даже если этот чип никогда не проектировался с прицелом на конкретный формат чисел. Практическая значимость портативности становится особенно очевидной, когда речь заходит о дообучении моделей. Базовые модели — Qwen, DeepSeek и другие открытые архитектуры — могут позволить себе использовать лишь немногие организации: тренировка с нуля требует тысяч видеокарт и огромных вычислительных бюджетов. Для всех остальных реалистичный путь — дообучение уже готовой модели на своих данных. Такая эффективная работа с малоранговыми аппроксимациями и нестандартными числовыми форматами превращается в экономическую необходимость. Поиск как операция внутри нейросети Другая история из мира невидимой инфраструктуры связана с поиском — задачей, которая кажется давно решенной, но на самом деле остается открытой проблемой с непредсказуемой глубиной. Поиск присутствует буквально везде в современном ИИ: он встроен в архитектуру трансформера, он используется при подготовке данных перед обучением, и он же лежит в основе систем, позволяющих языковым моделям обращаться к актуальной информации из интернета. Архитектура трансформера, ставшая основой практически всех современных языковых моделей, устроена вокруг операции внимания — attention. На каждом слое трансформера входящий токен преобразуется в поисковый запрос, который сопоставляется с ключами всех остальных токенов в контекстном окне. Тот, что максимально соответствует запросу, «отвечает» — и передает свое значение дальше по сети. Это и есть поиск: не поиск по ключевым словам, а поиск по близости векторных представлений. Библиотека USearch реализует именно такой поиск, но уже в разреженном пространстве — то есть не среди тысячи токенов контекстного окна, а среди миллиардов и триллионов векторов. Это открывает возможности, важные сразу в нескольких контекстах. Во-первых, перед тем как показывать языковой модели данные для обучения, их нужно очищать: дедублицировать, балансировать по тематике и языку и убирать перекосы. Для этого нужен эффективный поиск по огромным массивам. Во-вторых, когда языковая модель обращается к свежей информации, она не делает запросы в Google — каждая крупная ИИ-компания строит собственный внутренний аналог поискового индекса, и для этого тоже нужны специализированные поисковые движки. Одна из редко обсуждаемых особенностей USearch — портативность интерфейсов: библиотека поддерживает 14 языков программирования, причем не путем снижения производительности, а именно потому, что единое высокопроизводительное ядро обернуто в адаптеры для каждого из них. Это означает, что поисковый индекс, построенный на Python для нужд исследовательской команды, можно передать инфраструктурной команде, пишущей на Rust, и развернуть там без конвертации. Для многих корпоративных сценариев — от медицинских баз данных до фармацевтических патентных архивов — это единственное доступное решение подобного рода. Биоинформатика: где строки важнее матриц Есть область, где инфраструктурные проблемы ИИ пересекаются с вопросами, буквально определяющими здоровье и жизнь людей, — биоинформатика. Именно здесь третий проект — Stringzilla, библиотека для работы со строками, — неожиданно оказался инструментом с серьезными научными приложениями. Задача предсказания структуры белка, за которую в 2024 году Демису Хасабису из DeepMind была присуждена Нобелевская премия, на первый взгляд выглядит как задача нейронных сетей — и отчасти так и есть. Но для того чтобы обучить AlphaFold, потребовался не только PyTorch и матричные умножения. Не менее важной и значительно менее обсуждаемой составляющей была процедура выравнивания последовательностей: сравнение строк, составленных не из букв алфавита, а из символов генетического кода — всего четырех букв, A, G, C и T для ДНК, или двадцати аминокислотных обозначений для белков. Оригинальный AlphaFold решил эту задачу с инженерными компромиссами: вместо вычисления выравниваний в реальном времени в процессе обучения использовались заранее посчитанные и закэшированные результаты — костыль, позволивший двигаться быстро, но ценой потери гибкости и масштаба. Когда стало ясно, что подход работает, индустрия попыталась воспроизвести его в несравнимо большем масштабе — и здесь стандартные инструменты начали ломаться. Stringzilla реализует одни из самых быстрых в индустрии алгоритмов для выравнивания белков и ДНК-последовательностей. Это позволяет работать с петабайтами биологических данных — целыми дата-центрами геномной информации. Как выяснилось, даже самые авторитетные алгоритмы биоинформатики, лежащие в основе выданных Нобелевских премий, содержат ошибки в теоремах и доказательствах, которые описывают их поведение. Это непаханое поле для тех, кто готов смотреть на стык дисциплин без страха перед чужой терминологией. Unum как манифест: почему нужно переписывать инфраструктуру Три проекта — NumKong, USearch, Stringzilla — существуют под общей организационной крышей Unum, и это не случайно. За выбором объединять разрозленные инструменты стоит позиция, которая заслуживает отдельного разговора. Современная ИИ-инфраструктура работает достаточно хорошо, чтобы породить одну из крупнейших технологических революций в истории. Но она несет в себе огромный груз унаследованных решений — legacy, — которые принимались эволюционно, один поверх другого, под давлением времени и конкуренции. Числовые форматы, организация памяти, протоколы передачи данных между устройствами — все это складывалось по логике «работает и не трогай». Ситуацию хорошо описывает аналогия с раскладкой клавиатуры QWERTY. Она сложилась по историческим причинам, давно доказано, что есть более эргономичные альтернативы, но изменить ее практически невозможно — слишком дорого переучивать миллиарды людей и менять миллиарды устройств. В мире инфраструктуры ИИ ситуация отчасти похожа: чем дальше заходит стандартизация вокруг существующих решений, тем выше стоимость отказа от них. Но компьютерные науки — достаточно молодая область, чтобы эта стоимость оставалась управляемой. Программный слой можно переписать значительно быстрее, чем перестроить железнодорожную колею или перепроектировать розетки. Unum проектируется как совокупность модульных, независимо используемых компонентов именно потому, что никто не может гарантировать наличие лучшего решения сразу по всем направлениям. Компании, использующие поисковый движок, не обязаны использовать систему смешанной точности. Те, кому нужна биоинформатическая инфраструктура, могут игнорировать всё остальное. Модульность — это не архитектурная прихоть, а страховка от vendor lock-in и способ снизить зависимость пользователей от судьбы одного человека или одной организации. Открытый код и третий путь Для инженера, способного создавать инфраструктуру, которой пользуются компании с капитализацией в сотни миллиардов долларов, существуют два очевидных пути монетизации своих возможностей: наемная работа в крупной лаборатории или создание собственного стартапа. Оба пути обещают ресурсы и влияние, но у каждого есть скрытые издержки. В крупной организации появляются ресурсы и коллаборации, но исчезает время: на человека неизбежно сыплются задачи, не совпадающие с его собственными приоритетами, а иерархия поглощает тех, кто находится и внизу, и наверху. В собственном стартапе сохраняется больше свободы выбора направления, но инвесторы и пользователи предъявляют требования, которые нередко разворачивают фаундера от интересных проблем к банальным. Даже Стив Джобс, которого принято считать образцом несгибаемого визионера, был уволен из собственной компании — и пример этот показывает, насколько редко все три условия (интересная работа, рост и сохранение контроля) выполняются одновременно. Третий путь — открытый код без немедленной монетизации — выглядит неочевидно и в коротком горизонте откровенно убыточен. Но у него есть свойство, которое в долгой перспективе оказывается важнее денег: полный контроль над временем. Время (а не капитал) является главным ограничителем в работе над сложными инженерными задачами. Дополнительное финансирование может ускорить работу в два раза, но не в сто — потому что узкое место здесь не деньги, а часы, которые нужно потратить на то, чтобы переписать неэффективный алгоритм или разобраться в ошибке чужого кода. Открытый код, кроме того, создает специфическую форму репутации, которую трудно построить другим способом. Самые богатые технологические компании давно поняли: лучший инструмент для оценки кандидата — не экзамен и не интервью, а его публичные проекты. Когда всё, что человек сделал, закрыто за корпоративными соглашениями о конфиденциальности, оценить его реальный уровень почти невозможно. Когда его работа открыта и доступна, она говорит сама за себя громче любого резюме. Как инфраструктура меняет горизонт возможного Мы считаем инфраструктурный слой чем-то вторичным — водопроводом, без которого ничего не работает, но который сам по себе не производит ничего ценного. Эта точка зрения ошибочна, и биоинформатика, о которой мы уже упомянули, демонстрирует это особенно наглядно. Нобелевская премия по биологии 2024 года была выдана за предсказание структуры белков — задачу, которую десятилетиями считали почти неразрешимой, потому что вычислительная геометрия молекул требует чрезвычайно дорогих симуляций. Инструменты, ускоряющие обработку биологических последовательностей в тысячи раз, напрямую влияют на то, какие задачи становятся решаемыми. Дизайн лекарств, предсказание токсичности молекул, поиск новых кандидатов для клинических испытаний — всё это зависит от того, насколько эффективно можно обрабатывать данные на самом нижнем уровне. Похожая динамика справедлива для любой области, куда входит ИИ. Когда инфраструктура позволяет работать с петабайтами вместо гигабайт, открываются вопросы, которые раньше нельзя было даже корректно поставить. Индустрия, которая движется быстрее любой другой в истории и при этом строит небоскребы на болотистых сваях, не может позволить себе игнорировать вопросы о прочности фундамента. Рано или поздно — и желательно раньше — кому-то нужно заниматься именно им.
Пока публичные дискуссии об искусственном интеллекте сосредоточены на возможностях языковых моделей, качестве их ответов и этических последствиях их применения, в тени остается другой слой — инфраструктурный. Именно здесь, в пространстве числовых форматов, матричных операций и поисковых алгоритмов, определяется то, насколько мощными окажутся модели следующего поколения. Аш Варданян, создатель опенсорс-библиотек, которыми сегодня пользуются крупнейшие технологические компании мира, объясняет, как устроена эта невидимая часть индустрии — и почему здесь сосредоточен главный потенциал для инноваций. Почему видеокарты стали основой ИИ Нынешний технологический бум во многом обязан своим существованием сдвигу, произошедшему еще в 2008 году: именно тогда разработчики начали использовать графические процессоры и видеокарты для задач, не имеющих никакого отношения к графике. Появление языков программирования CUDA и OpenCL открыло возможность перекладывать на GPU операции линейной алгебры: перем