крошечную языковую модель - вместе с кодом для обработки ввода-вывода она занимает всего 40 килобайт на самом деле все еще интереснее, эта языковая модель - это программа для CP/M для процессора Z80 с 64 кБ памяти; в языковой модели используется хэширование для входных токенов - в его случае триграмм, это обеспечивает устойчивость к опечаткам; модель сквантована в 2 бита (-2, -1, 0 и 1), но на инференсе используется 16-битные целые вычисления, на которые рассчитан Z80 в качестве архитектуры там используются 3 полносвязных слоя и ReLU для активаций; при этом 128 токенов длинна входа и еще 128 - контекст; причем с этой радостью можно поиграть в загадки (отсюда взялся слон на заглавной картинке) эта история учит нас, что даже в чем-то большом нужно видеть малое, а в малом - большое с наступающим Новым Годом! @valuableai
я долго думал, как поздравить всех с наступающим Новым Годом, а потом мне на глаза попалась эта милая история: некий энтузиаст сделал самую
31 декабря 202531 дек 2025
2
~1 мин