12,2 тыс подписчиков

Taalas - когда ИИ модель вшили прямо в процессор

20 февраля20 фев

2 мин

Команда Taalas сделала революционно простую вещь: они взяли ИИ-модель и буквально впаяли её в кремний. Веса модели, те самые миллиарды чисел, которые определяют как ИИ думает, стали физической структурой чипа. Главный враг скорости в ИИ - постоянная перекачка весов из памяти в процессор. Это называется "memory bandwidth bottleneck". Буквально пробка на дороге между памятью и процессором. Перенос модели напрямую в процессор решает главную проблему: больше не нужно постоянно перегонять веса. Память и процессор теперь одно и то же. Результат: скорость 17 000 токенов в секунду. Это в 10 раз быстрее, чем лучшие GPU сегодня. При этом чип в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии. Как это понять? Представьте, что процессор - это повар на кухне, а память - это склад с продуктами в другом здании. И за продуктами надо ехать на медленном лифте и спускаться по лестнице. Каждый раз, когда повар готовит блюдо (салат, суп, котлетки), он должен сбегать на склад, взять нужн

Команда Taalas сделала революционно простую вещь: они взяли ИИ-модель и буквально впаяли её в кремний.

Веса модели, те самые миллиарды чисел, которые определяют как ИИ думает, стали физической структурой чипа.

Главный враг скорости в ИИ - постоянная перекачка весов из памяти в процессор. Это называется "memory bandwidth bottleneck". Буквально пробка на дороге между памятью и процессором.

Перенос модели напрямую в процессор решает главную проблему: больше не нужно постоянно перегонять веса.

Память и процессор теперь одно и то же.

Результат: скорость 17 000 токенов в секунду. Это в 10 раз быстрее, чем лучшие GPU сегодня. При этом чип в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии.

Как это понять?

Представьте, что процессор - это повар на кухне, а память - это склад с продуктами в другом здании. И за продуктами надо ехать на медленном лифте и спускаться по лестнице.

Каждый раз, когда повар готовит блюдо (салат, суп, котлетки), он должен сбегать на склад, взять нужные ингредиенты, принести на кухню, приготовить - и так миллиарды раз.

В Taalas эту проблему убрали.

Токен это как одно слово. Обычный человек читает около 180–230 слов в минуту.

А 17 000 токенов в секунду - это примерно как прогнать огромную книгу за минуту.

Для сравнения, GPU уровня H100 (топовая карта от NVidia) выдаёт примерно1 000–2 000 токенов/сек на той же модели.

Представьте себе что чип выдаёт текст примерно в 3 000 раз быстрее, чем ты его читаешь. Огромный роман из 500 000 слов чип "написал" бы за 34 секунды.

Получается что у Taalas склад и кухня - одно помещение. Никуда бегать не надо. Ну или можно сказать, что повар и есть продукты 👀

Круто? Да. Но всегда есть "но".

- В этом устройстве одна модель навсегда. Чип физически заточен под Llama 8B. Нельзя переключиться на другую модель, обновить её или заменить.

- Ограничения в виде 1000 токенов на вход и 1000 на выход. Это примерно две страницы текста в каждую сторону. Для простых диалогов хватит, но для анализа документов, длинных разговоров или сложных задач этого мало.

- Стандартные модели хранят веса с точностью 16-32 бита. Здесь всего 3-6 бит. Это как фотография с низким разрешением общий смысл понятен, но мелкие детали теряются. Качество ответов немного хуже.

- Малая кастомизация. Донастроить под себя можно только через LoRA-адаптеры. Кардинально изменить поведение модели не получится.

Llama 8B - это компактная модель. Она умная для своего размера, но заметно слабее больших моделей. Сложные рассуждения, глубокий анализ, многошаговые задачи - не её конёк.

Но есть огромное количество сфер применения, где это и не нужно.

Что обещает компания?

У них уже есть чип HC1 с Llama 8B, о котором я пишу.

Весной 2026 они обещают модель среднего размера с функцией рассуждения (reasoning). То есть что-то умнее текущего чипа, способное решать более сложные задачи - математику, логику, многошаговые задачи.

Зимой - чип второго поколения с моделью уровня GPT-4 - лучшее что сейчас существует в индустрии.

Пока это звучит фантастически круто и если они выполнят обещания - ИИ может стать настолько дешёвым и энергоэффективным, что такие чипы появятся буквально везде: в роутерах, телефонах, промышленных устройствах.

Да даже в твоем чайнике или кофеварке. Или тапочках с умной подсветкой.

По сути это как переход от огромных старых мейнфреймов к персональным компьютерам - только для нейросетей.

Ссылки:

- Новость на сайте компании

- Демоверсия - как это работает и посмотрите на скорость.

Гаджеты и электроника

5,73 млн интересуются