Команда Taalas сделала революционно простую вещь: они взяли ИИ-модель и буквально впаяли её в кремний. Веса модели, те самые миллиарды чисел, которые определяют как ИИ думает, стали физической структурой чипа. Главный враг скорости в ИИ - постоянная перекачка весов из памяти в процессор. Это называется "memory bandwidth bottleneck". Буквально пробка на дороге между памятью и процессором. Перенос модели напрямую в процессор решает главную проблему: больше не нужно постоянно перегонять веса. Память и процессор теперь одно и то же. Результат: скорость 17 000 токенов в секунду. Это в 10 раз быстрее, чем лучшие GPU сегодня. При этом чип в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии. Как это понять? Представьте, что процессор - это повар на кухне, а память - это склад с продуктами в другом здании. И за продуктами надо ехать на медленном лифте и спускаться по лестнице. Каждый раз, когда повар готовит блюдо (салат, суп, котлетки), он должен сбегать на склад, взять нужн
Taalas - когда ИИ модель вшили прямо в процессор
20 февраля20 фев
16
2 мин