205 подписчиков

Трансформеры как универсальные компьютеры: момент, когда нейросеть стала машиной

13 марта13 мар

4 мин

Когда мы говорим о больших языковых моделях, обычно представляем их как «умных собеседников» — систем, которые умеют писать код, объяснять теоремы и отвечать на вопросы. Но есть одна вещь, с которой они исторически справлялись удивительно плохо: точные вычисления. Сложный математический вывод — пожалуйста. А вот перемножить два числа или решить судоку без внешнего калькулятора — уже проблема. И вот теперь исследователи из Princeton и Percepta сделали неожиданный шаг: они фактически превратили трансформер в полноценный компьютер, способный выполнять программы внутри самой модели. Без Python, без интерпретаторов, без внешних инструментов. Это может звучать как научная фантастика — но технически это вполне реальная архитектура. Чтобы понять масштаб идеи, нужно вспомнить, как сегодня работают LLM. Если попросить модель что-то вычислить, чаще всего происходит примерно такой процесс: 🧠 модель пишет код

⚙️ внешний инструмент запускает этот код

📤 результат возвращается обратно в модель Напри

⚙️ внешний инструмент запускает этот код

📤 результат возвращается обратно в модель Напри

Оглавление

Когда нейросеть начинает считать сама
Как устроен «компьютер внутри трансформера»
Почему обычные трансформеры плохо считают

Сложный математический вывод — пожалуйста. А вот перемножить два числа или решить судоку без внешнего калькулятора — уже проблема.

И вот теперь исследователи из Princeton и Percepta сделали неожиданный шаг: они фактически превратили трансформер в полноценный компьютер, способный выполнять программы внутри самой модели. Без Python, без интерпретаторов, без внешних инструментов.

Это может звучать как научная фантастика — но технически это вполне реальная архитектура.

Когда нейросеть начинает считать сама

Чтобы понять масштаб идеи, нужно вспомнить, как сегодня работают LLM.

Если попросить модель что-то вычислить, чаще всего происходит примерно такой процесс:

🧠 модель пишет код
⚙️ внешний инструмент запускает этот код
📤 результат возвращается обратно в модель

Например:

python -c "print(3+5)"

Модель на самом деле не вычисляет результат. Она просто делегирует задачу внешней системе.

Это похоже на ситуацию с человеком и самолётом:

✈️ человек не умеет летать
✈️ он построил машину, которая летает за него

Точно так же LLM не выполняют вычисления — они организуют вычисление через инструменты.

Исследователи решили пойти другим путём:
а что если вычисления можно встроить прямо внутрь трансформера?

Как устроен «компьютер внутри трансформера»

Главная идея удивительно элегантная.

Вместо того чтобы вызывать внешний интерпретатор, модель сама выполняет программу, генерируя пошаговый журнал вычислений.

В качестве языка инструкций используется WebAssembly — низкоуровневый формат, в который компилируются C и C++.

Например, простое сложение выглядит так:

i32.const 03
i32.const 05
i32.add
output

После этого трансформер начинает исполнять программу токен за токеном, создавая трассу выполнения:

03
05
08
out(08)
halt

Всё происходит внутри генерации текста.

Это и есть ключевой момент:

💡 модель не вызывает инструмент
💡 модель сама становится вычислительной машиной

Почему обычные трансформеры плохо считают

Теоретически давно известно, что архитектура трансформеров обладает тьюринговой полнотой, то есть способна реализовать любой вычислимый алгоритм.

Но на практике есть серьёзная проблема.

Каждый новый токен должен «смотреть» на всю предыдущую историю.

Это означает:

⚠️ чем длиннее вычисление — тем медленнее каждый следующий шаг
⚠️ сложность растёт квадратично

Для длинных вычислений это превращается в катастрофу производительности.

Поэтому классические LLM быстро «теряют точность» на длинных алгоритмах.

Главный технический прорыв: внимание, работающее экспоненциально быстрее

Исследователи нашли необычное решение.

Они ограничили размер attention-головы двумя измерениями.

Звучит странно, но это даёт важное свойство:
операции внимания превращаются в геометрическую задачу.

Фактически система решает задачу:

найти точку на выпуклой оболочке, наиболее подходящую в заданном направлении.

Это классическая задача вычислительной геометрии.

В результате:

⚙️ поиск по истории выполняется не за O(n)
⚙️ а за O(log n)

То есть вместо линейного перебора используется структура данных вроде convex hull.

На практике это даёт огромный выигрыш.

📈 стандартный KV-cache — ~700 токенов/сек
📈 новая схема — 30 000+ токенов/сек

Даже на CPU.

Реальные демонстрации: алгоритмы и судоку

Чтобы показать возможности системы, исследователи запускали внутри трансформера полноценные алгоритмы.

Например:

🧮 Hungarian algorithm — алгоритм поиска оптимального сопоставления
🧩 решатель судоку
📊 различные оптимизационные задачи

В одном из экспериментов модель:

⚙️ исполнила 600 000 шагов вычисления
⚙️ генерировала трассу со скоростью ~30k токенов/сек

Особенно показателен тест с судоку.

Нейросети обычно плохо решают сложные судоку, потому что:

🧩 решение требует длинной последовательности точных шагов
🧩 любая ошибка ломает весь результат

Но когда внутри модели работает реальный алгоритм, проблема исчезает.

Если программа корректна — решение гарантированно корректно.

Почему это может изменить архитектуру ИИ

На первый взгляд это просто инженерный трюк.

Но последствия гораздо глубже.

Если трансформер может выполнять программы внутри себя, появляется совершенно новый класс систем.

Можно представить гибридную архитектуру:

🧠 LLM занимается рассуждением и планированием
⚙️ встроенный исполнитель выполняет алгоритмы

И всё это — в одной модели.

Ещё более радикальная идея: компиляция программ в веса

Самая неожиданная мысль в работе — это следующая.

Программы можно не только запускать внутри трансформера.

Их можно компилировать прямо в веса модели.

То есть веса могут стать:

💡 не только результатом обучения
💡 но и носителем программной логики

Это открывает совершенно новый способ развития AI-систем:

⚙️ часть поведения обучается градиентным спуском
⚙️ часть — вставляется как программный код

По сути, программное обеспечение начинает становиться частью самой нейросети.

Что это значит для будущего ИИ

Лично мне кажется, что эта работа показывает важную тенденцию.

ИИ-системы постепенно перестают быть просто нейросетями.

Они превращаются в гибрид вычислений:

🧠 нейросети для восприятия и абстракций
⚙️ алгоритмы для точных вычислений
🧩 программные структуры внутри модели

Если эта идея получит развитие, будущие модели могут выглядеть совсем иначе.

Вместо одного огромного LLM появятся системы, где:

⚙️ внутри модели есть специализированные вычислительные модули
⚙️ алгоритмы встроены прямо в веса
⚙️ рассуждение и вычисления работают как единый механизм

И тогда вопрос «может ли LLM быть компьютером» перестанет быть философским.

Ответ будет простым:

да — потому что она уже им стала.

Источники

🔗 Оригинальная новость
https://www.percepta.ai/blog/can-llms-be-computers

🔗 Полная статья
https://telegra.ph/Transformery-kak-kompyutery-kak-odna-arhitektura-nauchilas-vypolnyat-lyubye-programmy-03-13