38 подписчиков

Ланчбокс, который меняет правила: как AMD превратила огромные ИИ-модели в настольную реальность.

16 июня16 июн

3 мин

Лиза Су, глава AMD, вышла на сцену и в одной руке подняла компактный компьютер размером с ланчбокс. В прямом эфире эта машина запустила модель с 235 миллиардами параметров — полностью локально, без облака, без арендованных видеокарт и без ежемесячных счетов. Это не просто демонстрация. Это сигнал о том, что мощь, которая раньше требовала целых дата-центров, теперь помещается на столе или в рюкзаке. На мероприятии AMD (в контексте CES 2026 и связанных презентаций) Су продемонстрировала систему на базе процессора Ryzen AI Max+ 395 (известного как Strix Halo). Этот чип объединяет 16 ядер Zen 5, мощную встроенную графику с 40 вычислительными блоками и до 128 ГБ единой памяти, которую делят процессор, графика и специализированный блок для ИИ. Ключевой момент — унифицированная память. В отличие от традиционных видеокарт, где память для графики отделена (RTX 5090 предлагает около 32 ГБ, 4090 — 24 ГБ), здесь вся память доступна и для вычислений, и для хранения модели. На практике в Linux из 12

Оглавление

Что именно произошло
Почему это важно: цифры и реальность

Что именно произошло

На мероприятии AMD (в контексте CES 2026 и связанных презентаций) Су продемонстрировала систему на базе процессора Ryzen AI Max+ 395 (известного как Strix Halo). Этот чип объединяет 16 ядер Zen 5, мощную встроенную графику с 40 вычислительными блоками и до 128 ГБ единой памяти, которую делят процессор, графика и специализированный блок для ИИ.

Ключевой момент — унифицированная память. В отличие от традиционных видеокарт, где память для графики отделена (RTX 5090 предлагает около 32 ГБ, 4090 — 24 ГБ), здесь вся память доступна и для вычислений, и для хранения модели. На практике в Linux из 128 ГБ получается около 110 ГБ под задачи ИИ. Это позволило запустить Qwen3-235B (модель с Mixture-of-Experts архитектурой, где активно используется только часть параметров — около 22 млрд на токен) полностью локально.

По заявлениям AMD, в определенных сценариях вывода (inference) эта мини-система обошла RTX 5080 более чем в три раза. Реальные тесты мини-ПК вроде GMKtec EVO-X2 показывают скорость 10–20 токенов в секунду на больших моделях — не молниеносно, но достаточно для разработки, прототипирования и повседневной работы.

Цена таких систем стартует примерно от 1800–2500 долларов за конфигурацию с 128 ГБ памяти, хотя топовые варианты могут приближаться к 4000 долларам.

Почему это важно: цифры и реальность

Рынок облачных подписок на ИИ растет взрывно. Многие разработчики и компании тратят сотни долларов в месяц на ChatGPT Pro, Claude, Cursor и другие сервисы — легко набирается 200–400+ долларов ежемесячно. За год это тысячи долларов. Мини-ПК окупается за несколько месяцев при интенсивном использовании, а дальше работает бесплатно. Никаких лимитов на токены в 3 часа ночи, никаких рисков утечки данных.

Это особенно ценно для:

Разработчиков, работающих с конфиденциальным кодом или данными.
Компаний в регулируемых отраслях (финансы, медицина, юриспруденция).
Независимых создателей, которым нужны мощные инструменты без зависимости от корпораций.

Сравните с прошлым: три года назад модель такого размера требовала серверной стойки. Сегодня — коробка, которую можно взять с собой. Apple уже давно показывает путь с унифицированной памятью в чипах M-серии, но AMD сделала это на x86-платформе, с открытой экосистемой и фокусом на разработчиков (поддержка Ollama, LM Studio и других инструментов).

Это не конец облачных сервисов и не "убийца" NVIDIA. Облако останется для тренировки моделей, огромных батчей и задач, где нужна максимальная скорость или самые свежие frontier-модели. Но для inference, fine-tuning, приватных агентов и повседневной работы локальные решения становятся реальной альтернативой. AMD умело использует свою сильную сторону — интеграцию CPU+GPU+памяти — чтобы отвоевать долю рынка у дискретных видеокарт в сегменте ИИ-разработки.

Конечно, есть нюансы. Скорость вывода на больших моделях пока уступает топовым серверным решениям. Экосистема ROCm еще догоняет CUDA по удобству. Квантизация моделей помогает уместить их в память, но может слегка снижать качество. Тем не менее, для большинства практических задач разница уже не критична — особенно когда модель вроде Qwen3 показывает конкурентные результаты с ведущими закрытыми системами в кодинге, математике и рассуждениях.

Лично я вижу здесь сдвиг парадигмы. ИИ перестает быть "арендой" и становится собственностью. Это усиливает независимость разработчиков, снижает барьеры для инноваций и заставляет большие компании конкурировать не только качеством моделей, но и доступностью. Через год-два такие мини-системы станут обыденностью, а цены на память и чипы продолжат падать. Кто инвестирует в локальную инфраструктуру сейчас — выиграет в скорости и контроле.

AMD не просто показала железо. Она напомнила, что настоящая сила ИИ — когда оно работает у тебя под рукой, без посредников. Это не хайп. Это следующий логичный шаг в эволюции вычислений, подкрепленный реальными чипами, памятью и демонстрациями в прямом эфире.