Найти в Дзене

я долго думал, как поздравить всех с наступающим Новым Годом, а потом мне на глаза попалась эта милая история: некий энтузиаст сделал самую

крошечную языковую модель - вместе с кодом для обработки ввода-вывода она занимает всего 40 килобайт на самом деле все еще интереснее, эта языковая модель - это программа для CP/M для процессора Z80 с 64 кБ памяти; в языковой модели используется хэширование для входных токенов - в его случае триграмм, это обеспечивает устойчивость к опечаткам; модель сквантована в 2 бита (-2, -1, 0 и 1), но на инференсе используется 16-битные целые вычисления, на которые рассчитан Z80 в качестве архитектуры там используются 3 полносвязных слоя и ReLU для активаций; при этом 128 токенов длинна входа и еще 128 - контекст; причем с этой радостью можно поиграть в загадки (отсюда взялся слон на заглавной картинке) эта история учит нас, что даже в чем-то большом нужно видеть малое, а в малом - большое с наступающим Новым Годом! @valuableai

я долго думал, как поздравить всех с наступающим Новым Годом, а потом мне на глаза попалась эта милая история: некий энтузиаст сделал самую крошечную языковую модель - вместе с кодом для обработки ввода-вывода она занимает всего 40 килобайт

на самом деле все еще интереснее, эта языковая модель - это программа для CP/M для процессора Z80 с 64 кБ памяти; в языковой модели используется хэширование для входных токенов - в его случае триграмм, это обеспечивает устойчивость к опечаткам; модель сквантована в 2 бита (-2, -1, 0 и 1), но на инференсе используется 16-битные целые вычисления, на которые рассчитан Z80

в качестве архитектуры там используются 3 полносвязных слоя и ReLU для активаций; при этом 128 токенов длинна входа и еще 128 - контекст; причем с этой радостью можно поиграть в загадки (отсюда взялся слон на заглавной картинке)

эта история учит нас, что даже в чем-то большом нужно видеть малое, а в малом - большое

с наступающим Новым Годом!

@valuableai